[分享]爬虫学习笔记-WEB安全-看雪-安全社区|安全招聘|kanxue.com

[分享]爬虫学习笔记

发表于: 2019-3-28 21:54 5443

[分享]爬虫学习笔记

dolphindiv 活跃值

2019-3-28 21:54

5443

最近在一次面试中被问做过哪些成果，反思自己这方的面经验还是比较少。于是决定以后侧重实际应用，就以爬虫作为出发点。
较好的学习资源：  1.[SuperSpider——打造功能强大的爬虫利器](https://security.tencent.com/index.php/blog/msg/34)
《Python网络爬虫从入门到精通》重点内容
1、Robots协议
Robots协议（爬虫协议）的全称是"网络爬虫排除标准"，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。
以Allow项开头的URL是允许robot访问的，例如，Allow：/article允许百度爬虫引擎访问/article.htm、/article/12345.com等
以Disallow项开头的链接是不允许百度爬虫引擎访问的。例如，Disallow：/product/不允许百度百度爬虫引擎访问/product/12345.com等。
2、网络爬虫的约束
过于快速或者频繁的网络爬虫都会对服务器产生巨大的压力，网站可能会封锁你的IP，甚至会采取进一步的法律行动。因此要约束自己的网络爬虫行为，将请求的速度限定在一个合理的范围之内。
3.网络爬虫的基本议题
 (1)python爬虫的流程是怎样的？
 (2)三个流程的技术实现是什么？
3.1python爬虫的流程
分为三个部分：（1）获取网页；（2）解析网页（提取数据）；(3)存储数据。
3.2三个流程的技术实现
1.获取网页
基础技术：request、urllib和selenium(模拟浏览器)
进阶技术：多进程多线程抓取、登录抓取、突破IP封锁和服务器抓取
2.解析网页
基础技术：re正则表达式、BeautifulSoup和lxml。
进阶技术：解决中文乱码
3.存储数据
基础技术：存入txt文件和存入csv文D件
进阶技术：存入MySQL数据库和MongoDB数据库

[培训]内核驱动高级班，冲击BAT一流互联网大厂工作，每周日13:00-18:00直播授课

最后于 2019-3-28 22:53 被dolphindiv编辑，原因：

收藏・2

免费・1

支持