提问者:小点点

使用beautifulsoup从span标记中刮取数据


我正在尝试刮网页,在那里我需要解码整个表到一个数据帧。我正为此使用漂亮的汤。在某些td标记中,有一些span标记没有任何文本。但这些值会显示在网页上的特定span标记中。

下面的HTML代码对应于该网页,

<td>
  <span class="nttu">::after</span>
  <span class="ntbb">::after</span>
  <span class="ntyc">::after</span>
  <span class="nttu">::after</span>
</td>

但是,这个td标记中显示的值是23.8。我试着删掉它,但我收到的是空短信。

如何刮这个价值使用美丽的汤。

URL:https://en.tutiempo.net/climate/ws-432950.html

下面给出了我的用于报废表的代码,

http_url = "https://en.tutiempo.net/climate/01-2013/ws-432950.html"
retreived_data = requests.get(http_url).text

soup = BeautifulSoup(retreived_data, "lxml")
climate_table = soup.find("table", attrs={"class": "medias mensuales numspan"})
climate_data = climate_table.find_all("tr")
for data in climate_data[1:-2]:
  table_data = data.find_all("td")
  row_data = []
  for row in table_data:
    row_data.append(row.get_text())
  climate_df.loc[len(climate_df)] = row_data

共1个答案

匿名用户

误解了您的问题,因为您引用了两个不同的URL。我现在明白你的意思了。

奇怪的是,在第二个表中,他们使用CSS来填充一些标记的内容。您需要做的是从