我正在使用(python的)panda的map函数来处理一个大的CSV文件(约50GB),如下所示:
import pandas as pd
df = pd.read_csv("huge_file.csv")
df["results1"], df["results2"] = df.map(foo)
df.to_csv("output.csv")
有没有一种方法可以在这方面使用并行化?也许使用多处理的map函数?
谢了,荷西
请参见此处的分块阅读文档、此处的示例和此处的附录
你最好以块的形式读取你的csv,进行处理,然后将其写入csv(当然,你最好转换为HDF)。