Web刮刀的PyQuery代码 - 一点教程

提问者：小点点

Web刮刀的PyQuery代码

我对python有点陌生，但我正在尝试制作一个web scraper脚本，它可以在网站上下载所有图片。我正在使用requests和PyQuery，因为许多人在做了一些研究后推荐了它。这就是我现在所拥有的，我不知道该去哪里。

r = requests.get("some url")
images = pq(r.text)
for image in images.find("img"):

我知道我需要获取img的来源，但在找到img标签后如何做到这一点？此外，我查看了一些htmls的页面源，一些图片存储在他们的数据库中，因此src以“/”开头一些扩展“所以我想知道如何才能获得完整的url。

共1个答案

匿名用户

（蟒蛇3）

from pyquery import PyQuery as pq
import requests
from urllib.parse import urljoin

url = "..."
response = requests.get(url).text
for image in pq(response)("img") :
    imgurl = urljoin(url,image.get("src"))

为您辩护，pyquery文档似乎过时了。urllib负责将相对url合并为绝对url。

相关问题

热门标签

Java JavaScript Python PHP C# Android Html jQuery C++ Css IOS MySQL NodeJS