GridFS

MongoDB 的一个重要子模块,可基于 MongoDB 来持久存储文件,并且支持分布式存储和读取。

持久存储:对应瞬时数据如内存,指保存到数据库中,能持久保存。 分布式存储:将数据分散地存储于多个位置。

存在的意义

MongoDB 采用 BSON 格式存储数据,对数据的大小限制为 16M,但是在实际的系统开发中,上传的图片或文件可能尺寸会很大,此时可以使用 MongoDB 中的 GridFS 解决,通常用来处理大文件的存储。

存储原理

GridFS 使用两个集合来存储文件:

  • fs.chunks:存储文件的二进制数据 (一个文件有一到多条数据)

  • fs.files:存储文件的元数据 (一个文件只有一条数据)

元数据:用来描述数据的数据,如数据大小、创建时间、文件名、格式类型等。

存储数据

当一个文件存储到 GridFS 时,如果文件大于 chunksize(一个 chunk 的大小,256KB),会将文件按照 chunk 的大小分割成多个 chunk 块,最终将 chunk 块的信息存储在 fs.chunks 集合的多个文档中,然后将文件信息存储在 fs.files 集合的唯一一份文档中。

读取文件

先根据查询条件在 fs.files 集合中找到对应的文档,得到_id字段,在查询对应 fs.chunks 集合中所有files_id_id相同的文档,最后根据n字段的顺序读取 chunk 的data字段二进制数据,还原文件。

使用 GridFS

mongofiles是 GridFS 的实用工具,用于管理 GridFS 文件,在 MongoDB 安装目录下的 bin 目录中,可在命令行直接使用。

上传文件mongogiles put 文件名

生成的 fs.files:

生成的 fs.chunks:(我上传的 file.mov 共 750KB,分成了 3 个 chunk)

列出文件mongofiles list

下载文件mongofiles get 文件名

删除文件mongofiles delete 文件名

image.png

image.png