提问者:小点点

如何添加/更改列名称与py箭头。read_csv?


我目前正在尝试将一个没有任何标题的大csv文件(50GB)导入pyarrow表,其总体目标是将此文件导出为Parquet格式,并进一步在Pandas或Dask DataFrame中处理它。我如何在pyarrow中为csv文件指定列名和列类型?

我已经考虑过将标题附加到csv文件中。这会强制对文件进行完全重写,这看起来像是不必要的开销。据我所知,pyarrow提供了模式来定义特定列的dtype,但是文档缺少一个在将csv文件转换为箭头表时这样做的具体示例。

想象一下,这个csv文件只是一个简单的示例,即“A”和“B”两列。我当前的代码如下所示:

import numpy as np
import pandas as pd
import pyarrow as pa
df_with_header = pd.DataFrame({'col1': [1, 2], 'col2': [3, 4]})

print(df_with_header)
df_with_header.to_csv("data.csv", header=False, index=False)

df_without_header = pd.read_csv('data.csv', header=None)
print(df_without_header)
opts = pa.csv.ConvertOptions(column_types={'A': 'int8',
                                            'B': 'int8'})

table = pa.csv.read_csv(input_file = "data.csv", convert_options = opts)
print(table)

如果我打印出最终的表格,它不会改变列的名称。

pyarrow.Table
1: int64
3: int64

现在如何更改加载的列名和dtype?例如,是否也可以传入包含名称及其dtype的cript?


共1个答案

匿名用户

您可以为列指定类型覆盖:

    fp = io.BytesIO(b'one,two,three\n1,2,3\n4,5,6')
    fp.seek(0)
    table = csv.read_csv(
        fp,
        convert_options=csv.ConvertOptions(
            column_types={
                'one': pa.int8(),
                'two': pa.int8(),
                'three': pa.int8(),
            }
        ))

但在您的情况下,您没有标头,据我所知,箭头不支持此用例:

    fp = io.BytesIO(b'1,2,3\n4,5,6')
    fp.seek(0)
    table = csv.read_csv(
        fp,
        parse_options=csv.ParseOptions(header_rows=0)
    )

这引起了:

pyarrow.lib.ArrowInvalid: header_rows == 0 needs explicit column names

代码在这里:https://github.com/apache/arrow/blob/3cf8f355e1268dd8761b99719ab09cc20d372185/cpp/src/arrow/csv/reader.cc#L138

这类似于这个问题apache箭头-读取csv文件

应该有修复它在下一个版本:https://github.com/apache/arrow/pull/4898