提问者:小点点

Google Dataflow能否生成Parquet文件


Google Dataflow能否生成Parquet文件作为ETL转换的输出。

输入---


共2个答案

匿名用户

自2019年2月2.10引入parquetio以来,Cloud Dataflow一直支持编写Parquet。来自文档

with beam.Pipeline() as p:
  records = p | 'Read' >> beam.Create(
    [{'name': 'foo', 'age': 10}, {'name': 'bar', 'age': 20}]
  )
  _ = records | 'Write' >> beam.io.WriteToParquet(filename,
  pyarrow.schema(
      [('name', pyarrow.binary()), ('age', pyarrow.int64())]
  )
)

匿名用户

云数据流没有生成Parquet文件的内置方法,但是根据ParquetAPI的快速浏览,实现基于文件的自定义数据流接收器应该相对容易(参见“FileBasedSink”)。