首页
社区
课程
招聘
[分享]爬虫学习笔记
发表于: 2019-3-28 21:54 5443

[分享]爬虫学习笔记

2019-3-28 21:54
5443
最近在一次面试中被问做过哪些成果,反思自己这方的面经验还是比较少。于是决定以后侧重实际应用,就以爬虫作为出发点。
较好的学习资源:  1.[SuperSpider——打造功能强大的爬虫利器](https://security.tencent.com/index.php/blog/msg/34)
《Python网络爬虫从入门到精通》重点内容
1、Robots协议
Robots协议(爬虫协议)的全称是"网络爬虫排除标准",网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
以Allow项开头的URL是允许robot访问的,例如,Allow:/article允许百度爬虫引擎访问/article.htm、/article/12345.com等
以Disallow项开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/不允许百度百度爬虫引擎访问/product/12345.com等。
2、网络爬虫的约束
过于快速或者频繁的网络爬虫都会对服务器产生巨大的压力,网站可能会封锁你的IP,甚至会采取进一步的法律行动。因此要约束自己的网络爬虫行为,将请求的速度限定在一个合理的范围之内。
3.网络爬虫的基本议题
 (1)python爬虫的流程是怎样的?
 (2)三个流程的技术实现是什么?
3.1python爬虫的流程
分为三个部分:(1)获取网页;(2)解析网页(提取数据);(3)存储数据。
3.2三个流程的技术实现
1.获取网页
基础技术:request、urllib和selenium(模拟浏览器)
进阶技术:多进程多线程抓取、登录抓取、突破IP封锁和服务器抓取
2.解析网页
基础技术:re正则表达式、BeautifulSoup和lxml。
进阶技术:解决中文乱码
3.存储数据
基础技术:存入txt文件和存入csv文D件
进阶技术:存入MySQL数据库和MongoDB数据库

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

最后于 2019-3-28 22:53 被dolphindiv编辑 ,原因:
收藏
免费 1
支持
分享
最新回复 (1)
游客
登录 | 注册 方可回帖
返回
//