提问者:小点点

逐行构造py箭头表的最快方法


我有一个大字典,我想通过迭代来构建一个pyarrow表。字典的值是不同类型的元组,需要在最终的pyarrow表中解压并存储在单独的列中。我确实提前知道了模式。键也需要存储为一列。我在下面有一个方法来逐行构造表-有没有另一种方法更快?对于上下文,我想将一个大字典解析为pyarrow表以写入parket文件。RAM使用比CPU次更不关心。我宁愿不要下拉到箭头CAPI。

import pyarrow as pa
import random
import string 
import time

large_dict = dict()

for i in range(int(1e6)):
    large_dict[i] = (random.randint(0, 5), random.choice(string.ascii_letters))


schema = pa.schema({
        "key"  : pa.uint32(),
        "col1" : pa.uint8(),
        "col2" : pa.string()
   })

start = time.time()

tables = []
for key, item in large_dict.items():
    val1, val2 = item
    tables.append(
            pa.Table.from_pydict({
                    "key"  : [key],
                    "col1" : [val1],
                    "col2" : [val2]
                }, schema = schema)

            )

table = pa.concat_tables(tables)
end = time.time()
print(end - start) # 22.6 seconds on my machine


共2个答案

匿名用户

由于架构是提前知道的,因此您可以为每一列制作一个列表并构建列名和列值对的字典。

%%timeit -r 10
import pyarrow as pa
import random
import string 
import time

large_dict = dict()

for i in range(int(1e6)):
    large_dict[i] = (random.randint(0, 5), random.choice(string.ascii_letters))


schema = pa.schema({
        "key"  : pa.uint32(),
        "col1" : pa.uint8(),
        "col2" : pa.string()
  })

keys = []
val1 = []
val2 = []
for k, (v1, v2) in large_dict.items():
  keys.append(k)
  val1.append(v1)
  val2.append(v2)

table = pa.Table.from_pydict(
    dict(
        zip(schema.names, (keys, val1, val2))
    ),
    schema=schema
)

每个循环2.92 s±236 ms(平均±std. dev.10次运行,每个循环1次)

匿名用户

我也在玩pyarrow。对我来说,在你的代码中,数据准备阶段(随机等)似乎是最耗时的部分。所以可能首先尝试将数据转换为数组的字典,然后将它们提供给箭头表。

请看,我根据您的数据和%%timeit-ing仅表人口阶段制作示例。但是使用RecordBatch来做到这一点。from_arrays()和三个数组的数组。

I = iter(pa.RecordBatch.\
         from_arrays(
                      get_data(l0, l1_0, l2, i),
                      schema=schema) for i in range(1000)
        )

T1 = pa.Table.from_batches(I, schema=schema)

静态数据集1000行批处理1000次-表填充了令人难以置信的15 ms:)可能是由于缓存。并且修改了1000行,如col1*整数批处理1000次-33.3 ms,这看起来也不错。

我的样本笔记本在这里

PS。我想知道这是否有帮助,但似乎这只会让时机变得更糟。