我正试图从网站上搜集一些数据,并设法收集重要信息,但当我将其打印到excel文件中时,数据只会流入一列。提供的代码是否有解决方案,或者我是否需要创建多个结果,然后打印出来。
我对网页抓取非常陌生,我尝试过使用<代码>。join,它刚刚将所有数据放在我想要的一行中,但是它将所有数据连接到一列中
totals = page_soup.findAll("p", {"class":"b-fight-details__table-text"})
for i in totals:
stats = i.text.replace("\n"," ")
print(stats, end= " ")
f.write(stats)
f.close()
Stephen Thompson Anthony Pettis 0 1 47 of 107 32 of 55 43% 58% 47 of 107
当前的输出是这样的,但是它都被困在一列中,我希望它如下所示,很明显,我将在输出代码中有标题
Fighter A Fighter B KD TKD S TS
Stephen Thompson Anthony Pettis 0 1 47 of 107 32 of 55 43% 58% etc...
您可以尝试用print(stats, end = " ")替换代码行:print(stats)
只需更改打印结束
for i in totals:
stats = i.text.strip()
print(stats, end = " ")
#...#
它应该会起作用。
如果您希望在您编写的输出文件中相同,请替换:
f.write(stats + " ")
使用:
f.write(stats + " ")
例如:
with open("out.txt", "w") as f:
for i in totals:
stats = i.text.strip()
print(stats, end = " ");
f.write(stats + " ")
如果字符串本身包含“\n”个字符,则可以替换它们:
with open("out.txt", "w") as f:
for i in totals:
stats = i.replace("\n", " ")
print(stats, end = " ");
f.write(stats + " ")
如果只做一次并且您对该布局感到满意(p标签分隔的内容最终在同一单元格中)...您可以使用熊猫
import pandas as pd
tables = pd.read_html('http://www.ufcstats.com/fight-details/56ae02578b1163ee')
df = tables[0]
df.to_csv(r'C:\Users\User\Desktop\data.csv', sep=',', encoding='utf-8-sig',index = False )
如果你想在多场比赛中使用熊猫附加,请参见以下答案:
https://stackoverflow.com/a/17135044/6241235