看服务器日志, 发现Bing抓取的太疯狂, 每天来10W次+。 小水管服务器cpu直接爆, 影响到正常用户的使用体验了。
解决方法就是想办法限制bing蜘蛛来的次数和抓取频率。
两种解决方式:
第一种: 通过bing提供的web master tools工具设置。
注册好,认证完网站后, 可在左侧配置菜单中选择“爬网控件”进行配置。
直接入口: https://www.bing.com/webmasters/crawlcontrol?siteUrl=http://www.8kmm.com/
如下图所示:
设置好时区, 然后拖动时间条进行管理。 非常方便。
考虑到8kmm.com白天用户多, 凌晨用户少,所以我这里设置的是一到大伙工作上班学习时你少来。 晚上凌晨才让你放马过来。
第二种,这种方式比较暴力, 直接控制robots.txt文件进行控制。
可以在robots.txt里面增加crawl-delay 这个参数。
User-agent: bingbot
Crawl-delay: 1
上面的代码代表bingbot限制抓取频率为慢。
如果不设置Crawl-delay就代表由搜索引擎自己决定抓取频率。
这个值可以设置1、5、10,分别对应慢、非常慢、极慢。
如果是其他搜索引擎,例如Google、百度这些,都可以在对应的站长工具里面设置抓取频率,也可以通过robots.txt文件设置,相对来说,robots.txt生效时间会慢一点。 其实我也不推荐直接用robots设置
相关阅读:《设置Google爬虫抓取频率和屏蔽垃圾蜘蛛》
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...