Python是一只可爱的爬虫（一）

动力

灰常想写一个小小的，可爱的爬虫~ O(∩_∩)O 哈哈~

约束

利用Python爬虫爬取网页信息时一定要遵循网站Robots.txt约束，Robots协议（爬虫协议）全称（网络爬虫排除标准）。

除了遵循robots协议之外，过于快速、密集、频繁地爬取信息会对服务器造成巨大的压力，形成类似DDOS的效果，很可能造成自己的IP被列入黑名单。所以一定要限制爬虫的速度（率）。否则，后果很严重！

做人呢，也如此，首先要有道德底线，遵循社会上的一些准则——那些不可逾越的红线，然后再做事。

爬取流程

大概是：

爬取网页 —— 解析网页（提取数据） —— 存储数据（cvs、数据库等）

软件 & others

软件：Anaconda（译：南美洲巨蟒）

另外：pip是Python安装各种第三方库的工具

比如我想安装requests库怎么办？安装bs4怎么办？…
在 命令行 操作
1
2
pip install requests
pip install bs4

第一个小爬虫

import requests
from bs4 import BeautifulSoup  #从bs4第三方库中导入BeautifulSoup模块

# 获取网页
link = "https://ithou.cc/" #我的个人博客
r = requests.get(link) #r是request的Response响应对象

# 解析网页
soup = BeautifulSoup(r.text, "lxml")
title = soup.find("h2",class_="post-title").a.text.strip() # class 后面有一个下划线：class_
print(title)

# 存储数据
with open('title.txt', "a+") as f:
    f.write(title)
    f.close()