使用AvroParquetInputFormat将镶木地板读入Google DataFlow

提问者：小点点

使用AvroParquetInputFormat将镶木地板读入Google DataFlow

尝试将简单的Parquet文件读入我的Google DataFlow Pipeline

使用以下代码

Read.Bounded<KV<Void, GenericData>> results = HadoopFileSource.readFrom("/home/avi/tmp/db_demo/simple.parquet", AvroParquetInputFormat.class, Void.class, GenericData.class);

运行流水线时始终触发以下异常

IllegalStateException：找不到org. apache.avro.Generic.GenericData类的编码器

似乎HadoopFileSource中的这个方法不能像编码器那样处理这种类型的类

  private <T> Coder<T> getDefaultCoder(Class<T> c) {
if (Writable.class.isAssignableFrom(c)) {
  Class<? extends Writable> writableClass = (Class<? extends Writable>) c;
  return (Coder<T>) WritableCoder.of(writableClass);
} else if (Void.class.equals(c)) {
  return (Coder<T>) VoidCoder.of();
}
// TODO: how to use registered coders here?
throw new IllegalStateException("Cannot find coder for " + c);

}

任何帮助将不胜感激

阿维

共1个答案

匿名用户

这是HadoopFileSource设计的一个问题。我建议迁移到apache-bin或（Scio），这是dataflow sdk的apache“版本”（和“未来”）。一旦你在光束上，你可以：

这将是scala（但你可以很容易地翻译成java）：

HDFSFileSource.from(
  input,
  classOf[AvroParquetInputFormat[AvroSchemaClass]],
  AvroCoder.of(classOf[AvroSchemaClass]),
  new SerializableFunction[KV[Void, AvroSchemaClass], AvroSchemaClass]() {
    override def apply(e: KV[Void, AvroSchemaClass]): AvroSchemaClass =
      CoderUtils.clone(AvroCoder.of(classOf[AvroSchemaClass]), e.getValue)
  }
)

这是中接受coder的的替代版本。


		      
                相关问题
                

																                
					
										   自定义TabLayout，如Google Play音乐应用程序
										   Google数据流：从正在运行的管道本身获取作业名称和开始时间
										   GCPDataflow运行流式插入到BigQuery：GC激荡
										   从Dataflow python作业在bigquery中写入分区表
										   通过本地DataFlow作业写入BigQuery
										   使用Google Dataflow运行Apache Beam而无需设置Google应用程序凭据
										   为Dataflow和Apache Beam创建一个超级jar
										   Google数据流PythonApache Beam窗口延迟问题
										   Google Dataflow-能够并行化当前运行步骤中的工作
										   使用代理将DataFlow作业连接到Cloud MySQL是否安全（通过os. system）
										   获取"请求包含无效参数."调用googleapis时projects.jobs. create
										   从Dataflow上传到MSSQL使用DirectRunner运行良好，但使用DataflowRunner无法运行（使用pyodbc/msodbcsql18）
										   是否可以在项目或组织级别设置Google Cloud Dataflow使用的区域？
										   通过google cloud函数在DataFlow作业中GCS. csv
										   Dataflow作业中的ModuleNotFoundError
										   Dataflow flex模板作业尝试使用相同的job_name启动第二个作业（用于管道）
										   GCPDataflow作业坐在"未开始"
										   如何在Cloud Dataflow中管理WorkerHarnessThread？
										   Cloud Dataflow上的25个作业限制可以延长吗？
										   Apache Beam/Google数据流Python流式自动缩放

使用AvroParquetInputFormat将镶木地板读入Google DataFlow

共1个答案

相关问题

热门标签

微信关注