Nathan Marz在他的书《大数据》中描述了如何在HDFS中维护数据文件,以及如何使用运行在Map Reduce之上的Pail库将文件大小优化为尽可能接近原生HDFS块大小。
Google Cloud Storage允许组合对象,允许您将对象存储在多个部分中,然后将它们组合起来,一次最多32个部分,总共1024个组成部分。此功能可在API中使用。
复合对象和并行上传-Google Cloud Platform开发者指南