代理ip知识与免费资源
-
282024年4月
-
302024年3月
-
292024年2月
-
312024年1月
-
312023年12月
-
302023年11月
-
312023年10月
-
302023年9月
-
312023年8月
-
352023年7月
-
312023年6月
-
312023年5月
-
302023年4月
-
312023年3月
-
282023年2月
-
312023年1月
-
312022年12月
-
302022年11月
-
312022年10月
-
302022年9月
-
312022年8月
-
322022年7月
-
292022年6月
-
322022年5月
-
302022年4月
-
332022年3月
-
312022年2月
-
372022年1月
-
382021年12月
-
382021年11月
-
402021年10月
-
432021年9月
-
372021年8月
-
442021年7月
-
442021年6月
-
432021年5月
-
342021年4月
-
312021年3月
-
292021年2月
-
352021年1月
-
422020年12月
-
402020年11月
-
482020年10月
-
522020年9月
-
852020年8月
-
752020年7月
-
802020年6月
-
782020年5月
-
772020年4月
-
432020年3月
-
362020年2月
-
452020年1月
-
562019年12月
-
712019年11月
-
612019年10月
-
562019年9月
-
532019年8月
-
362019年7月
-
362019年6月
-
382019年5月
-
402019年4月
-
352019年3月
-
342019年2月
-
442019年1月
-
392018年12月
-
402018年11月
-
392018年10月
-
392018年9月
-
452018年8月
-
452018年7月
-
392018年6月
-
512018年5月
-
492018年4月
-
342018年3月
-
282018年2月
-
482018年1月
-
732017年12月
-
7292017年11月
-
7442017年10月
-
2892017年9月
-
12017年8月
首页>代理ip知识与免费资源>正文
各大搜索引擎爬虫程序名称
发布日期:2017/9/24 7:02:22 阅读量:9324
通常搜索引擎抓取网页的方式就是通过搜索引擎的特定程序工具,去访问、索引互联网上的各个网站内容。
这类程序被称为:搜索机器人(Robot)、网络蜘蛛(spider)、爬虫(WebCrawler)等等。
而各大搜索引擎的爬虫名称如下:
GoogleGooglebot:Google对一般网页的索引程序。
Googlebot-Mobile:Google对于移动设备,如手机网页的索引程序。
Googlebot-Image:Google专门用来抓取图片的程序。
Mediapartners-Google:为放置了GoogleAdsense广告联盟代码的网站使用的专用抓取程序,只针对放置了GoogleAdsense代码的网站。这个爬虫的作用是专门抓取Adsense广告内容。
Adsbot-Google:这是Google专门为GoogleAdwords客户设计的蜘蛛,如果你使用了Google的Adwords服务,那么这个蜘蛛就会派出这个蜘蛛来衡量放置了你广告的网站的质量。
百度Baiduspider:百度的综合索引蜘蛛。雅虎Yahoo!Slurp:雅虎的综合索引爬虫程序。
Yahoo!-AdCrawler:雅虎专门为Yahoo!搜索引擎广告开发的专用蜘蛛。
有道YodaoBot:有道搜索引擎综合索引蜘蛛
腾讯SOSOSosospider:腾讯SOSO综合索引蜘蛛
搜狗sogouspider:搜狗综合索引蜘蛛
MSNMSNBot:Live综合索引蜘蛛对于搜索引擎的蜘蛛,可以通过robots.txt文件进行一定访问规范和限制。而且并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能。因此,网站管理员需要验证每个机器人身份是否合法。
建议通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。如:crawl-66-249-66-1.googlebot.com为google爬虫的主机名称。
这类程序被称为:搜索机器人(Robot)、网络蜘蛛(spider)、爬虫(WebCrawler)等等。
而各大搜索引擎的爬虫名称如下:
GoogleGooglebot:Google对一般网页的索引程序。
Googlebot-Mobile:Google对于移动设备,如手机网页的索引程序。
Googlebot-Image:Google专门用来抓取图片的程序。
Mediapartners-Google:为放置了GoogleAdsense广告联盟代码的网站使用的专用抓取程序,只针对放置了GoogleAdsense代码的网站。这个爬虫的作用是专门抓取Adsense广告内容。
Adsbot-Google:这是Google专门为GoogleAdwords客户设计的蜘蛛,如果你使用了Google的Adwords服务,那么这个蜘蛛就会派出这个蜘蛛来衡量放置了你广告的网站的质量。
百度Baiduspider:百度的综合索引蜘蛛。雅虎Yahoo!Slurp:雅虎的综合索引爬虫程序。
Yahoo!-AdCrawler:雅虎专门为Yahoo!搜索引擎广告开发的专用蜘蛛。
有道YodaoBot:有道搜索引擎综合索引蜘蛛
腾讯SOSOSosospider:腾讯SOSO综合索引蜘蛛
搜狗sogouspider:搜狗综合索引蜘蛛
MSNMSNBot:Live综合索引蜘蛛对于搜索引擎的蜘蛛,可以通过robots.txt文件进行一定访问规范和限制。而且并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能。因此,网站管理员需要验证每个机器人身份是否合法。
建议通过DNS反向查询找出搜索引擎机器人IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。如:crawl-66-249-66-1.googlebot.com为google爬虫的主机名称。