从xlsx文件读取数据(仅20000个数字)需要花费很长时间:
import pandas as pd
xlsxfile = pd.ExcelFile("myfile.xlsx")
data = xlsxfile.parse('Sheet1', index_col = None, header = None)
大约需要9秒。
如果以csv格式保存同一文件,则需要约25毫秒:
import pandas as pd
csvfile = "myfile.csv"
data = pd.read_csv(csvfile, index_col = None, header = None)
这是openpyxl的问题还是我遗漏了什么?还有其他选择吗?
xlrd支持。xlsx文件,这个答案表明,至少xlrd的测试版具有。xlsx支持比openpyxl更快。
Pandas(11.0)的当前稳定版本使用openpyxl处理. xlsx文件,但这在下一个版本中已经更改。如果你想试一试,你可以从GitHub下载开发版本