提问者:小点点

使用Selenium从页面上的多个链接中清除数据的Python


我的问题是我有一个带有多个用户配置文件的页面(一个页面20个,50个页面),我想使用selenium来自动单击每个配置文件,然后使用MaybeautifulSoup来获取数据并将其存储到数据框架中。 然后我想在接下来的50页里这样做。 我刚刚调查了Scrapy可能更好,但如果有一个解决方案使用硒LMK! 提前致谢


共1个答案

匿名用户

这实际上取决于站点和结果的分页工作方式(具体实现),例如,如果您可以点击结果的n页和URL后缀,然后显示某种查询以显示结果的数量,并从21开始等等,那么您根本不需要硒,您只需要使用循环和一些等待时间就可以做到这一点,这样您就不会向站点发送垃圾信息。

关于这个问题的答案,我发现有一些有用的启发式。

  • https://stackoverflow.com/A/44102555/9217153

我仍然不确定我看到了一个清晰的问题,你只是描述了一个问题并提出了解决方案,但我不知道你在什么地方遇到了问题/技术问题/问题不起作用。

如果你想找的话,网上也有很多指南

  • https://www.digitalocean.com/community/Tutorials/how-to-scrape-web-pages-with-beautiful-Soup-and-python-3
  • https://www.dataquest.io/blog/web-scraping-beautifulsoup/

这里有一个Youtube视频展示了如何使用Scrapy,但同样的概念也适用,重要的是URL后缀,而不是点击页面。

  • https://www.youtube.com/watch?v=qumujys9bcu

下面的一个例子显示了页面遍历如何在Selenium+Python中工作

  • https://www.youtube.com/watch?v=zjo9yfhoul8