|
| 什么是网络蜘蛛(web spider)--【统一互联】 |
搜索引擎机器人也称网络蜘蛛(web spider),吧互联网称作一个蜘蛛网spider就在网上爬行,spider通过网页的链接寻找网页,从某一个页面开始,读取网页的内容,寻找其他链接地址,然后通过这个地址进入新的页面,指导吧着个网站的所有页面抓取完为止。
在抓取页面的时候网络蜘蛛(web spider)有两种策略:广度优先和深度优先
广度优先是指:网络蜘蛛(web spider)先抓取起始页页面中的所以链接地址,然后再选取其中的页面链接页面,继续抓紧此页面的所以链接地址,这是最常用的方式,因为这样方式可以让网络蜘蛛(web spider)并行处理,提高抓取速度。
深度优先是指:spider会从起始页面一个链接一个链接的爬行下去,处理完着条线路后,再转入下一个起始页面,继续跟踪链接。着个方法有个优点,是spider设计比较容易。网络蜘蛛(web spider)由于不可能抓取所以的页面,有些网络蜘蛛设置了访问深度,所以做网站的时候页面深度不要超过3层。避免深层的页面不被收录。
百度蜘蛛:baiduspider
谷歌蜘蛛:googlebot
网络蜘蛛在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是
需要会员权限才能访问。当然,网站的所有者可以通过协议让网络蜘蛛不去抓取,但对于一
些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者
查看,这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这
些网页进行网页抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者
提供相应的权限验证。
二、如何辨别搜索引擎机器人身份
搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们
来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器
人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循
robots.txt 规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器
人身份是否合法。
在你的服务器日志文件中,可见每次访问的路径和相应的IP 地址,如果是机器人来访,
则user-agent 会显示Googlebot 或MSNBot 等搜索引擎漫游器名称,每个搜索引擎都有自己
的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将
他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。
目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过
DNS 反向查询找出搜索引擎机器人IP 地址对应的主机名称;用主机名查找IP 地址以确认该
主机名与IP 地址匹配。
首先,使用DNS 反向查询(Reverse DNS Lookup),找出机器人IP 地址对应的主机名
称。主流搜索引擎的主机名称通常情况下应是这样的:
􀁺 Google : 主机名称应包含于googlebot.com 域名中, 如:
crawl-66-249-66-1.googlebot.com;
􀁺 MSN : 主机名称应包含于search.live.com 域名中, 如:
livebot-207-46-98-149.search.live.com;
􀁺 Yahoo:主机名称应包含于inktomisearch.com 域名中,如:ab1164.inktomisearch.com。
最后,做一次DNS 查询,用主机名查找IP 地址(Forward DNS Lookup),以确认该主
机名与IP 地址匹配。由此证明该机器人是合法的。
现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上
的设置来阻止这个非法机器人。
您是否还想查看:什么是Dreamweaver
|
|