!
也想出现在这里? 联系我们
广告区块

python爬虫入门教程:爬取网页图片

在现在这个信息爆炸的时代,要想高效的获取数据,爬虫是非常好用的。而用python做爬虫也十分简单方便,下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程:

准备工作

语言:python

IDE:pycharm

首先是要用到的库,因为是刚入门最简单的程序,我们主要就用到下面这两:

  1. import requests //用于请求网页
  2. import re //正则表达式,用于解析筛选网页中的信息

其中re是python自带的,requests库需要我们自己安装,在命令行中输入pip install requests即可。

然后随便找一个网站,注意不要尝试爬取隐私敏感信息,这里找了个表情包网站:

注:此处表情包网站中的内容本来就可以免费下载,所以爬虫只是简化了我们一个个点的流程,注意不能去爬取付费资源。

python爬虫入门教程:爬取网页图片

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序

首先肯定要通过python访问这个网站,代码如下:

  1. headers = {
  2. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
  3. }
  4. response = requests.get('https://qq.yh31.com/zjbq/',headers=headers) //请求网页

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝,所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

python爬虫入门教程:爬取网页图片

然后我们要找到我们要爬取的图片在网页代码里的位置,f12查看源代码,找到表情包如下:

python爬虫入门教程:爬取网页图片

然后建立匹配规则,用正则表达式把中间那串替换掉,最简单的就是.*?

t = 'python爬虫入门教程:爬取网页图片'

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了:

result = re.findall(t, response.text)

返回的内容是由字符串组成的列表,最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码

  1. import requests
  2. import re
  3. import os
  4. image = '表情包'
  5. if not os.path.exists(image):
  6. os.mkdir(image)
  7. headers = {
  8. 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
  9. }
  10. response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
  11. response.encoding = 'GBK'
  12. response.encoding = 'utf-8'
  13. print(response.request.headers)
  14. print(response.status_code)
  15. t = 'python爬虫入门教程:爬取网页图片'
  16. result = re.findall(t, response.text)
  17. for img in result:
  18. print(img)
  19. res = requests.get(img[0])
  20. print(res.status_code)
  21. s = img[0].split('.')[-1] #截取图片后缀,得到表情包格式,如jpg ,gif
  22. with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
  23. file.write(res.content)
python爬虫入门教程:爬取网页图片

最后结果就是这个样子:

python爬虫入门教程:爬取网页图片

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_46145027/article/details/123969044
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
有新私信 私信列表
搜索