我有一个要求读取拼花文件在我的数据流写在java和上传bigquery.由于没有开箱即用的功能,但我知道我必须写一个自定义源与hadoopFileFormat但我无法找到任何留档关于相同的.有人能帮我一些代码或留档如何编写自定义源或任何其他方法可用于读取拼花文件在云数据流。
用于内置I/O转换的Apache Beam留档提供了Apache Beam中I/O转换半成品的列表。实际上,该列表包括读取Java中的ApacheParquet文件,可以在BEAM-214 Jira中遵循。
所以到目前为止,你是对的,没有开箱即用的解决方案来处理Apache Beam/Cloud数据流中的Parquet文件。然而,该领域正在取得进展,所以请随时更新我上面分享的Jira。
此外,您应该知道Stack Overflow不是请求有关如何执行某些操作的代码或外部教程/留档的合适站点,因此您不太可能获得此类信息。根据帮助中心:
相反,我建议您首先自己尝试实现,然后带着社区可以更好地回答的具体问题回到这里。