首页
社区
课程
招聘
[求助]搜索引擎的蜘蛛是怎么读取动态页面的?
发表于: 2008-11-13 00:08 5627

[求助]搜索引擎的蜘蛛是怎么读取动态页面的?

2008-11-13 00:08
5627
最近接到任务,要搞个类似蜘蛛的东西,搜索页面的文本内容,但不知道搜索引擎的蜘蛛是怎么抓动态页面的内容的?比如PHP,ASP,JAVA之类的,要自己实现一个解释器吗?

[培训]内核驱动高级班,冲击BAT一流互联网大厂工作,每周日13:00-18:00直播授课

收藏
免费 0
支持
分享
最新回复 (3)
雪    币: 189
活跃值: (56)
能力值: ( LV6,RANK:90 )
在线值:
发帖
回帖
粉丝
2
有啥书和资料的,也请老大们给小弟推荐一下,
先谢谢了
2008-11-13 00:19
0
雪    币: 107
活跃值: (11)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
3
返回给客户端的都是html了,javascript,applet,flash之类可以解析一把,看复杂程度了。
2008-11-13 00:57
0
雪    币: 154
活跃值: (221)
能力值: ( LV4,RANK:50 )
在线值:
发帖
回帖
粉丝
4
动态脚本都在服务器上面执行生成静态网页,然后发送到客户端。我们平常看到的网页代码都是静态网页了。搜索引擎得到的网页都是静态的HTML。直接解析就可以了。
解析器的实现太多了,你可以参考一下现有的开放源代码搜索引擎的HTML解析器实现,用“HTMLPARSER”作为关键词在GOOGLE上搜索一下就行了。它们的实现就是去除了HTML标签,生成纯文本。这里面的有技术的就是怎么样才能从一个网页中正确的进行“文章标题和正文的提取”,这需要从网页页面结构上入手,要用到语言学方面的东西。相关信息你自己搜索去:
比如说,我刚搜索了一下相关的资料:
问题:一个标题和多个正文,如何用程序来判断这个标题属于这个正文的思路:把标题用中科院分词系统分词,然后去除停止词,然后根据词性标注把实词取出来,记为S,然后看每个正文里S里的每个词出现的次数,无论哪个词,取出现次数最多的那个正文就是这个标题的正文,我觉得这个思路比把标题和正文都切词后用编辑距离比较的算法更准一些,而且正文和标题切词后是两个字符串数组,两个字符串数组貌似没有现成的算法算他们之间的距离的。
最后,我还要说的就是:外事不决问GOOGLE!百度相对来说国外的内容基本上没索引。搞技术还是要用GOOGLE
2008-11-13 11:01
0
游客
登录 | 注册 方可回帖
返回
//