我使用PyArrow写Parquet文件从一些熊猫的数据帧在Python。
有没有办法指定写入parque文件的逻辑类型?
例如,在PyArrow中编写np. uint32
列会导致parque文件中的INT64列,而使用fastparque模块编写相同的列会导致逻辑类型为UINT_32的INT32列(这是我在PyArrow中追求的行为)。
例如:
import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
import fastparquet as fp
import numpy as np
df = pd.DataFrame.from_records(data=[(1, 'foo'), (2, 'bar')], columns=['id', 'name'])
df['id'] = df['id'].astype(np.uint32)
# write parquet file using PyArrow
pq.write_table(pa.Table.from_pandas(df, preserve_index=False), 'pyarrow.parquet')
# write parquet file using fastparquet
fp.write('fastparquet.parquet', df)
# print schemas of both written files
print('PyArrow:', pq.ParquetFile('pyarrow.parquet').schema)
print('fastparquet:', pq.ParquetFile('fastparquet.parquet').schema)
这输出:
PyArrow: <pyarrow._parquet.ParquetSchema object at 0x10ecf9048>
id: INT64
name: BYTE_ARRAY UTF8
fastparquet: <pyarrow._parquet.ParquetSchema object at 0x10f322848>
id: INT32 UINT_32
name: BYTE_ARRAY UTF8
我与其他列类型有类似的问题,所以真的在寻找一种通用的方法来指定使用PyArrow编写时使用的逻辑类型。
PyArrow默认情况下编写parket 1.0版文件,需要2.0版才能使用UINT_32
逻辑类型。
解决方法是在写表的时候指定版本,即。
pq.write_table(pa.Table.from_pandas(df, preserve_index=False), 'pyarrow.parquet', version='2.0')
然后,这会导致编写预期的拼花架构。