提问者:小点点

CSV


从xlsx文件读取数据(仅20000个数字)需要花费很长时间:

import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)

大约需要9秒。

如果以csv格式保存同一文件,则需要约25毫秒:

import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)

这是openpyxl的问题还是我遗漏了什么?还有其他选择吗?


共1个答案

匿名用户

xlrd支持。xlsx文件,这个答案表明,至少xlrd的测试版具有。xlsx支持比openpyxl更快。

Pandas(11.0)的当前稳定版本使用openpyxl处理. xlsx文件,但这在下一个版本中已经更改。如果你想试一试,你可以从GitHub下载开发版本