-
-
[分享]爬虫学习笔记
-
发表于: 2019-3-28 21:54 5443
-
最近在一次面试中被问做过哪些成果,反思自己这方的面经验还是比较少。于是决定以后侧重实际应用,就以爬虫作为出发点。 较好的学习资源: 1.[SuperSpider——打造功能强大的爬虫利器](https://security.tencent.com/index.php/blog/msg/34) 《Python网络爬虫从入门到精通》重点内容 1、Robots协议 Robots协议(爬虫协议)的全称是"网络爬虫排除标准",网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。 以Allow项开头的URL是允许robot访问的,例如,Allow:/article允许百度爬虫引擎访问/article.htm、/article/12345.com等 以Disallow项开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/不允许百度百度爬虫引擎访问/product/12345.com等。 2、网络爬虫的约束 过于快速或者频繁的网络爬虫都会对服务器产生巨大的压力,网站可能会封锁你的IP,甚至会采取进一步的法律行动。因此要约束自己的网络爬虫行为,将请求的速度限定在一个合理的范围之内。 3.网络爬虫的基本议题 (1)python爬虫的流程是怎样的? (2)三个流程的技术实现是什么? 3.1python爬虫的流程 分为三个部分:(1)获取网页;(2)解析网页(提取数据);(3)存储数据。 3.2三个流程的技术实现 1.获取网页 基础技术:request、urllib和selenium(模拟浏览器) 进阶技术:多进程多线程抓取、登录抓取、突破IP封锁和服务器抓取 2.解析网页 基础技术:re正则表达式、BeautifulSoup和lxml。 进阶技术:解决中文乱码 3.存储数据 基础技术:存入txt文件和存入csv文D件 进阶技术:存入MySQL数据库和MongoDB数据库
[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课
最后于 2019-3-28 22:53
被dolphindiv编辑
,原因:
赞赏
他的文章
- [原创]large chunk分配过程调试 12791
- [原创]BCTF 2018 House of Atum分析 11855
- [原创]HITB CTF 2018 gundam分析 17353
- [原创][原创]Unsorted Bin 利用后续 5800
看原图
赞赏
雪币:
留言: