GridFS
MongoDB 的一个重要子模块,可基于 MongoDB 来持久存储文件,并且支持分布式存储和读取。
持久存储:对应瞬时数据如内存,指保存到数据库中,能持久保存。 分布式存储:将数据分散地存储于多个位置。
存在的意义
MongoDB 采用 BSON 格式存储数据,对数据的大小限制为 16M,但是在实际的系统开发中,上传的图片或文件可能尺寸会很大,此时可以使用 MongoDB 中的 GridFS 解决,通常用来处理大文件的存储。
存储原理
GridFS 使用两个集合来存储文件:
-
fs.chunks
:存储文件的二进制数据 (一个文件有一到多条数据) -
fs.files
:存储文件的元数据 (一个文件只有一条数据)
元数据:用来描述数据的数据,如数据大小、创建时间、文件名、格式类型等。
存储数据
当一个文件存储到 GridFS 时,如果文件大于 chunksize(一个 chunk 的大小,256KB),会将文件按照 chunk 的大小分割成多个 chunk 块,最终将 chunk 块的信息存储在 fs.chunks 集合的多个文档中,然后将文件信息存储在 fs.files 集合的唯一一份文档中。
读取文件
先根据查询条件在 fs.files 集合中找到对应的文档,得到_id
字段,在查询对应 fs.chunks 集合中所有files_id
和_id
相同的文档,最后根据n
字段的顺序读取 chunk 的data
字段二进制数据,还原文件。
使用 GridFS
mongofiles
是 GridFS 的实用工具,用于管理 GridFS 文件,在 MongoDB 安装目录下的 bin 目录中,可在命令行直接使用。
上传文件mongogiles put 文件名
生成的 fs.files:
生成的 fs.chunks:(我上传的 file.mov 共 750KB,分成了 3 个 chunk)