首页
社区
课程
招聘
[求助]请问大家有做过爬虫爬取网上的apk文件没有
发表于: 2011-11-22 10:54 11967

[求助]请问大家有做过爬虫爬取网上的apk文件没有

2011-11-22 10:54
11967
我自己用python写了一个爬虫,在一个网站上爬了9000多个apk文件,但是对于那种需要登录之后才能爬的东西,我不知道该怎么爬,大家有这方面的经验吗?我看到过网上有很多代码实现这个功能,我想要了解这些代码的原理,而不是简单的复制;比如:为什么要用cookie?第一次登录之后,下一次还需不需要登录?如果不需要的话,原理是什么,是通过什么机制避开了之后的登录验证?登录有没有时间限制,在多长时间之后本次登录就失效了,等等?反正就是这些东西的原理。感觉还是了解原理之后,写起来得心应手,照着别人的代码写感觉有点不靠谱,出了错都不知道该怎么改

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

收藏
免费 0
支持
分享
最新回复 (6)
雪    币: 218
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
2
我做过。也有代码。我可以给你代码,你可不可以先告诉我Immunity Debugger调驱动的问题你解决没有哦?
2012-2-11 18:54
0
雪    币: 18
活跃值: (10)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
3
我去,你好执着啊,这个问题我一直没有解决,不知道怎么回事,现在也不用这个东西了!不过还是对你的执着表示一下佩服!
2012-4-1 22:21
0
雪    币: 615
活跃值: (172)
能力值: ( LV9,RANK:140 )
在线值:
发帖
回帖
粉丝
4
原理就是在第一次登录之后服务器响应是SetCookie(不管服务器是用session还是cookie认证方式),
之后本地生成了一个Cookie,你获取本地这个cookie,在爬这个网站的页面时候请求的头部添加这个cookie就是了
2012-4-1 22:52
0
雪    币: 615
活跃值: (172)
能力值: ( LV9,RANK:140 )
在线值:
发帖
回帖
粉丝
5
如果想知道原理,建议你安装个google浏览器,使用google开发人员工具的网络分析功能来
查看各种类型的请求包实现过程... ie8以上版本的也可以.
2012-4-1 22:55
0
雪    币: 589
活跃值: (119)
能力值: ( LV11,RANK:190 )
在线值:
发帖
回帖
粉丝
6
用HTTPCookieProcessor
2012-4-1 23:54
0
雪    币: 5
活跃值: (374)
能力值: ( LV2,RANK:10 )
在线值:
发帖
回帖
粉丝
7
有个模块可以实现登录的!
2012-6-5 17:14
0
游客
登录 | 注册 方可回帖
返回
//