CSV

提问者：小点点

从xlsx文件读取数据（仅20000个数字）需要花费很长时间：

import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)

大约需要9秒。

如果以csv格式保存同一文件，则需要约25毫秒：

import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)

这是openpyxl的问题还是我遗漏了什么？还有其他选择吗？

共1个答案

匿名用户

xlrd支持。xlsx文件，这个答案表明，至少xlrd的测试版具有。xlsx支持比openpyxl更快。

Pandas（11.0）的当前稳定版本使用openpyxl处理. xlsx文件，但这在下一个版本中已经更改。如果你想试一试，你可以从GitHub下载开发版本