提问者:小点点

Apache BeamPythonSDK-从GCS读取GZIP压缩Parquet文件


我想使用Apache Beam的PythonSDK将GZIP压缩Parquet文件从GCS读取到BigQuery中。但是apache_beam.io. parquetio.ReadFromParque方法似乎不支持从压缩文件中读取。根据源代码源代码,压缩类型被硬编码为UNCOMPRESSED

读取压缩Parquet文件而不需要事先解压缩GCS中的文件有什么诀窍吗?如果这是唯一的方法,有没有办法直接在GCS中解压缩文件?


共1个答案

匿名用户

我正在调查这个问题,我发现了这个关于您的问题的问题跟踪器。如您所见,目前无法在不移出存储桶的情况下直接解压缩GZIP文件。

如果您想获得此请求的更新,您可以在它更新或负责团队发布更多信息时对其进行星标更新。