有人试过用Apache Beam读写Parquet文件吗?最近在2.5.0版中增加了支持,因此留档不多。
我正在尝试读取json输入文件并想写入parquet格式。
提前感谢。
在不同的模块中添加以下依赖项作为ParquetIO。
<dependency>
<groupId>org.apache.beam</groupId>;
<artifactId>beam-sdks-java-io-parquet</artifactId>;
<version>2.6.0</version>;
</dependency>;
//这是要读写的代码……
PCollection<JsonObject> input = #Your data
PCollection<GenericRecord> pgr =input.apply("parse json", ParDo.of(new DoFn<JsonObject, GenericRecord> {
@ProcessElement
public void processElement(ProcessContext context) {
JsonObject json= context.getElement();
GenericRecord record = #convert json to GenericRecord with schema
context.output(record);
}
}));
pgr.apply(FileIO.<GenericRecord>write().via(ParquetIO.sink(schema)).to("path/to/save"));
PCollection<GenericRecord> data = pipeline.apply(
ParquetIO.read(schema).from("path/to/read"));
您将需要使用ParquetIO. Sink。它实现了FileIO。