我想使用Apache Beam的PythonSDK将GZIP压缩Parquet文件从GCS读取到BigQuery中。但是apache_beam.io. parquetio.ReadFromParque
方法似乎不支持从压缩文件中读取。根据源代码源代码,压缩类型被硬编码为UNCOMPRESSED
。
读取压缩Parquet文件而不需要事先解压缩GCS中的文件有什么诀窍吗?如果这是唯一的方法,有没有办法直接在GCS中解压缩文件?
我正在调查这个问题,我发现了这个关于您的问题的问题跟踪器。如您所见,目前无法在不移出存储桶的情况下直接解压缩GZIP文件。
如果您想获得此请求的更新,您可以在它更新或负责团队发布更多信息时对其进行星标更新。