Python是一只可爱的爬虫(一)

动力

灰常想写一个小小的,可爱的爬虫~ O(∩_∩)O 哈哈~

约束

利用Python爬虫爬取网页信息时一定要遵循网站Robots.txt约束,Robots协议(爬虫协议)全称(网络爬虫排除标准)。

除了遵循robots协议之外,过于快速、密集、频繁地爬取信息会对服务器造成巨大的压力,形成类似DDOS的效果,很可能造成自己的IP被列入黑名单。所以一定要限制爬虫的速度(率)。否则,后果很严重!

做人呢,也如此,首先要有道德底线,遵循社会上的一些准则——那些不可逾越的红线,然后再做事。

爬取流程

大概是:

爬取网页 —— 解析网页(提取数据) —— 存储数据(cvs、数据库等)

软件 & others

软件:Anaconda(译:南美洲巨蟒)

另外:pip是Python安装各种第三方库的工具

  • 比如我想安装requests库怎么办?安装bs4怎么办?…
  • 命令行 操作
    1
    2
    pip install requests
    pip install bs4

第一个小爬虫

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import requests
from bs4 import BeautifulSoup #从bs4第三方库中导入BeautifulSoup模块

# 获取网页
link = "https://ithou.cc/" #我的个人博客
r = requests.get(link) #r是request的Response响应对象

# 解析网页
soup = BeautifulSoup(r.text, "lxml")
title = soup.find("h2",class_="post-title").a.text.strip() # class 后面有一个下划线:class_
print(title)

# 存储数据
with open('title.txt', "a+") as f:
f.write(title)
f.close()
———— The End ————