动力
约束
利用Python爬虫爬取网页信息时一定要遵循网站Robots.txt
约束,Robots协议(爬虫协议)全称(网络爬虫排除标准)。
除了遵循robots协议之外,过于快速、密集、频繁地爬取信息会对服务器造成巨大的压力,形成类似DDOS的效果,很可能造成自己的IP被列入黑名单。所以一定要限制爬虫的速度(率)。否则,后果很严重!
做人呢,也如此,首先要有道德底线,遵循社会上的一些准则——那些不可逾越的红线,然后再做事。
爬取流程
大概是:
爬取网页 —— 解析网页(提取数据) —— 存储数据(cvs、数据库等)
软件 & others
软件:Anaconda(译:南美洲巨蟒)
另外:pip是Python安装各种第三方库的工具
- 比如我想安装
requests
库怎么办?安装bs4
怎么办?… - 在
命令行
操作1
2pip install requests
pip install bs4
第一个小爬虫
1 | import requests |