摘要:针对HDFS 最初是为流式访问大文件而开发的, 而对于大量小文件的存储效率不高问题, 采用MapFile设计一个HDFS 中存储小文件的方案. 该方案的主要思想是在上传HDFS 时增加一个文件类型判断模块, 建立一个小文件队列, 将小文件序列化存入一个MapFile 容器,合并成大文件, 并建立相应的索引文件, 有效降低文件数目和提高访问效率. 通过和现有的Hadoop Archives(HAR files)文件归档解决小文件问题的方案对比, 实验结果表明, 基于MapFile 的存储小文件方案可以更为有