提问者:小点点

PyArrow Table:将ListArray列中的结构转换为新模式


我有一个在ListArray列中带有struct字段的parquet文件,其中struct中字段的数据类型从int更改为带有一些新数据的浮点数。

为了结合新旧数据,我一直在阅读活动

因此,为了在连接之前使两个表的模式兼容,我执行以下操作:

active = pq.read_table("path\to\active\parquet")
active_schema = active.schema

hist = pq.read_table("path\to\hist\parquet")
hist = hist.cast(target_schema=active_schema)

combined = pa.concat_tables([active, hist])

但是我在铸造时得到了以下错误:

ArrowNotImplementedError: Unsupported cast from struct<code: string, unit_price: struct<amount: int64, currency: string>, line_total: struct<amount: int64, currency: string>, reversal: bool, include_for: list<item: string>, quantity: int64, seats: int64, units: int64, percentage: int64> to struct using function cast_struct

基于这一点,我似乎不能做演员。

所以我的问题是,如何合并这些数据集/如何更新旧表上的模式?如果可能的话,我正在尝试留在箭头/拼花生态系统中。


共1个答案

匿名用户

不幸的是,尚未实现将结构转换为类似的结构类型但具有不同的字段类型(有关功能请求,请参阅https://issues.apache.org/jira/browse/ARROW-1888)。

我认为目前唯一可能的解决方法是提取结构列,单独转换字段,从中重新创建结构列并使用它更新表。

此工作流的一个小示例,从下表的struct列开始:

>>> table = pa.table({'col1': [1, 2, 3], 'col2': [{'a': 1, 'b': 2}, None, {'a':3, 'b':4}]})
>>> table
pyarrow.Table
col1: int64
col2: struct<a: int64, b: int64>
  child 0, a: int64
  child 1, b: int64

并假设以下目标模式(其中struct列的一个字段从int更改为flot):

>>> new_schema = pa.schema([('col1', pa.int64()), ('col2', pa.struct([('a', pa.int64()), ('b', pa.float64())]))])
>>> new_schema
col1: int64
col2: struct<a: int64, b: double>
  child 0, a: int64
  child 1, b: double

然后解决方法如下所示:

# cast fields separately
struct_col = table["col2"]
new_struct_type = new_schema.field("col2").type
new_fields = [field.cast(typ_field.type) for field, typ_field in zip(struct_col.flatten(), new_struct_type)]
# create new structarray from separate fields
import pyarrow.compute as pc
new_struct_array = pc.make_struct(*new_fields, field_names=[f.name for f in new_struct_type])
# replace the table column with the new array
col_idx = table.schema.get_field_index("col2")
new_table = table.set_column(col_idx, new_schema.field("col2"), new_struct_array)

>>> new_table
pyarrow.Table
col1: int64
col2: struct<a: int64, b: double>
  child 0, a: int64
  child 1, b: double