我对python有点陌生,但我正在尝试制作一个web scraper脚本,它可以在网站上下载所有图片。我正在使用requests和PyQuery,因为许多人在做了一些研究后推荐了它。这就是我现在所拥有的,我不知道该去哪里。
r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):
我知道我需要获取img的来源,但在找到img标签后如何做到这一点?此外,我查看了一些htmls的页面源,一些图片存储在他们的数据库中,因此src以“/”开头一些扩展“所以我想知道如何才能获得完整的url。
(蟒蛇3)
from pyquery import PyQuery as pq
import requests
from urllib.parse import urljoin
url = "..."
response = requests.get(url).text
for image in pq(response)("img") :
imgurl = urljoin(url,image.get("src"))
为您辩护,pyquery文档似乎过时了。urllib负责将相对url合并为绝对url。