提问者:小点点

使用Google Cloud Dataflow合并Google Cloud Storage中的文件


Nathan Marz在他的书《大数据》中描述了如何在HDFS中维护数据文件,以及如何使用运行在Map Reduce之上的Pail库将文件大小优化为尽可能接近原生HDFS块大小。

  1. 是否有可能在Google Cloud Storage中实现相同的结果?
  2. 为此,我可以使用Google Cloud Dataflow而不是MapReduce吗?

共1个答案

匿名用户

Google Cloud Storage允许组合对象,允许您将对象存储在多个部分中,然后将它们组合起来,一次最多32个部分,总共1024个组成部分。此功能可在API中使用。

复合对象和并行上传-Google Cloud Platform开发者指南