2019-12-27

深入浅出 Python 爬虫相关知识

爬虫的四个步骤

  • 获取数据
    • Requests 库
  • 解析数据
    • BeautifulSoup 库
  • 提取数据
  • 存储数据

使用 urllib.request 对 url parameters 进行转码

1
2
3
4
5
import urllib.request

string = input('Hello World')
encode_string = string.encode('gbk')
url = 'https://www.baidu.com?keyword=' + urllib.request.quote(encode_string)

使用 requests 获取数据

安装

1
2
# 安装 requests
pip3 install requests

示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
# 引入 requests 库
res = requests.get('URL')

# 添加参数访问
payload = {
'hello': 'world'
}
res = requests.get('URL', params=payload)

# 添加请求头
header = {
# 请求来源,本案例中其实是不需要加这个参数的
'origin':'https://y.qq.com',
# 请求来源,携带的信息比“origin”更丰富
'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s.html',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
}
res = requests.get('URL', params=payload, headers=headers)

# 打印变量 res 的数据类型:requests.models.Response 类
print(type(res))

# 自动处理 JSON
res.json()

request.models.Response 类

常用成员属性:

  • response.status_code - 检查请求是否成功
  • response.content - 把 response 对象转换为二进制数据
  • response.text - 把 response 对象转换为字符串数据
  • response.encoding - 定义 response 对象的编码

request.Session - 会话对象

会话对象让你能够跨请求保持某些参数。它也会在同一个 Session 实例发出的所有请求之间保持 cookie, 期间使用 urllib3 的 connection pooling 功能。所以如果你向同一主机发送多个请求,底层的 TCP 连接将会被重用,从而带来显著的性能提升。

1
2
session = requests.Session()
session.get('url')

requests.cookies - 转换存储方法

image

1
2
3
4
5
6
7
8
9
10
11
12
13
import requests
import json

# 把 cookies 转化成字典
cookies_dict = requests.utils.dict_from_cookiejar(session.cookies)

# 把 cookies 字典转化成字符串
cookies_str = json.dumps(cookies_dict)

# 把 cookies 字符串存储起来
file = open('cookies.txt', 'w')
file.write(cookies_str)
file.close()

image

1
2
3
4
cookies_txt = open('cookies.txt', 'r')
cookies_dict = json.loads(cookies_txt.read())
cookies = requests.utils.cookiejar_from_dict(cookies_dict)
session.cookies = cookies

使用 BeautifulSoup 解析数据

安装

1
2
# 安装 BeautifulSoup
pip3 install BeautifulSoup4

示例

1
2
3
4
5
6
7
8
import requests
from bs4 import BeautifulSoup

res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
html = res.text

#把网页解析为BeautifulSoup对象
soup = BeautifulSoup(html,'html.parser')

BeautifulSoup 对象常用方法与属性

  • 方法
    • find(tag, attributes, recursive, text, keywords)
      • 作用:提取满足要求的首个数据
      • 用法:BeautifulSoup 对象.find(‘标签’, ‘属性’)
      • 示例:soup.find('div', class_='books')
      • 返回:Tag 类对象
    • find_all(tag, attributes, recursive, text, limit, keywords)
      • 作用:提取满足要求的所有数据
      • 用法:BeautifulSoup 对象.find(‘标签’, ‘属性’)
      • 示例:soup.find_all('div', style_='books')
      • 返回:ResultSet 类对象,本质是 Tag 类对象的列表

示例

1
2
3
4
5
6
7
8
9
10
11
import requests 
from bs4 import BeautifulSoup

res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
html= res.text

soup = BeautifulSoup( html,'html.parser')
items = soup.find_all(class_='books')

for item in items:
print('想找的数据都包含在这里了:\n',item)

Tag 对象常用方法与属性

  • Tag.find()、Tag.find_all():提取 Tag 中的 Tag。
  • Tag.text:提取 Tag 中的文字。
  • Tag[‘属性名’]:输入参数属性名,可以提取 Tag 这个属性的值。

编写爬虫通用业务流程

image

使用 Selenium 操控浏览器

安装

1
pip3 install selenium

本地 Google Chrome 设置方法

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
from selenium import webdriver
import time

# 设置 Chrome 驱动
driver = webdriver.Chrome()

# 打开网址
driver.get('https://localprod.pandateacher.com/python-manuscript/hello-spiderman/')

# 等待页面加载
time.sleep(2)

# 获取页面源码
html = driver.page_source

# 关闭页面
driver.close()

Selenium 提取 HTML 元素

方法 作用
find_element_by_tag_name、find_elements_by_tag_name 通过元素的标签名称选择
find_element_by_class_name、find_elements_by_class_name 通过元素的 class 属性选择
find_element_by_id、find_elements_by_id 通过元素的 id 选择
find_element_by_name、find_elements_by_name 通过元素的 name 属性选择
find_element_by_link_text、find_elements_by_link_text 通过链接文本获取超链接
find_element_by_partial_link_text、find_elements_by_partial_link_text 通过链接的部分文本获取超链接

Selenium 操作浏览器

1
2
3
4
5
6
7
8
# 模拟按键输入,自动填写表单
WebElement.send_keys('123456')

# 点击元素
WebElement.click()

# 清除元素内容
WebElement.clear()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
# 以下方法都可以从网页中提取出'你好,蜘蛛侠!'这段文字

find_element_by_tag_name:通过元素的名称选择
# 如<h1>你好,蜘蛛侠!</h1>
# 可以使用find_element_by_tag_name('h1')

find_element_by_class_name:通过元素的class属性选择
# 如<h1 class="title">你好,蜘蛛侠!</h1>
# 可以使用find_element_by_class_name('title')

find_element_by_id:通过元素的id选择
# 如<h1 id="title">你好,蜘蛛侠!</h1>
# 可以使用find_element_by_id('title')

find_element_by_name:通过元素的name属性选择
# 如<h1 name="hello">你好,蜘蛛侠!</h1>
# 可以使用find_element_by_name('hello')

#以下两个方法可以提取出超链接

find_element_by_link_text:通过链接文本获取超链接
# 如<a href="spidermen.html">你好,蜘蛛侠!</a>
# 可以使用find_element_by_link_text('你好,蜘蛛侠!')

find_element_by_partial_link_text:通过链接的部分文本获取超链接
# 如<a href="https://localprod.pandateacher.com/python-manuscript/hello-spiderman/">你好,蜘蛛侠!</a>
# 可以使用find_element_by_partial_link_text('你好')

WebElement 对象常用方法与属性

  • WebElement.text - 提取文字
  • WebElement.get_attribute() - 输入参数

使用 Schedule 实现定时

安装

1
pip3 install schedule

示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
import schedule
import time

#定义函数
def job():
print("I'm working...")


# 部署每10分钟执行一次job()函数的任务
schedule.every(10).minutes.do(job)

# 部署每×小时执行一次job()函数的任务
schedule.every().hour.do(job)

# 部署在每天的10:30执行job()函数的任务
schedule.every().day.at("10:30").do(job)

# 部署每个星期一执行job()函数的任务
schedule.every().monday.do(job)

# 部署每周三的13:15执行函数
schedule.every().wednesday.at("13:15").do(job)的任务

while True:
# 检查并执行任务
schedule.run_pending()
time.sleep(1)

使用 gevent 实现多协程

安装

1
pip3 install gevent

示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
# 从 gevent 库里导入 monkey 模块
from gevent import monkey

# 把程序变成协作式运行
monkey.patch_all()

# 记录网站爬取所需时间
import time

# 实现多协程
import gevent

# 实现网站爬取
import requests

# 记录程序开始时间
start = time.time()

# 网站列表
url_list = ['https://www.baidu.com/',
'https://www.sina.com.cn/',
'http://www.sohu.com/',
'https://www.qq.com/',
'https://www.163.com/',
'http://www.iqiyi.com/',
'https://www.tmall.com/',
'http://www.ifeng.com/']


# 定义一个 crawler() 函数
def crawler(url):
response = requests.get(url)
print(url, time.time() - start, response.status_code)


# 创建空的任务列表
tasks_list = []

for url in url_list:
# 用 gevent.spawn() 函数创建任务
task = gevent.spawn(crawler, url)
# 往任务列表添加任务
tasks_list.append(task)

# 执行所有任务
gevent.joinall(tasks_list)
print(time.time() - start)

使用 queue 模块实现队列

示例

1
from gevent.queue import Queue

image

使用 Scrapy 框架

Scrapy 框架结构

  • Scrapy Engine
    • Scheduler
      • 处理引擎发送过来的requests对象(即网页请求的相关信息集合,包括params,data,cookies,request headers…等),会把请求的url以有序的方式排列成队,并等待引擎来提取(功能上类似于gevent库的queue模块)。
    • Downloader
      • 负责处理引擎发送过来的requests,进行网页爬取,并将返回的response(爬取到的内容)交给引擎。它对应的是爬虫流程【获取数据】这一步。
    • Spiders
      • 主要任务是创建requests对象和接受引擎发送过来的response(Downloader部门爬取到的内容),从中解析并提取出有用的数据。它对应的是爬虫流程【解析数据】和【提取数据】这两步。
    • Item Pipeline
      • 负责存储和处理Spiders部门提取到的有用数据。这个对应的是爬虫流程【存储数据】这一步。

image

image

安装

1
pip3 install scrapy

反爬策略

  • 豆瓣电影 Top250 使用 HTTP 头部进行验证
    • 模拟正常行为头部,添加至每次请求当中
  • QQ 音乐、搜索「周杰伦」使用 Ajax 进行反爬
    • 查看所有 XHR,优先查看传输时间长,传输体积大的请求