设置Google爬虫抓取频率和屏蔽垃圾蜘蛛

技术文摘3年前 (2021)更新 8KMM
8.8K 0 0

小站被谷歌和营销类的无用蜘蛛挤爆, 看后台的数据, 每日来访超200多万次, 导致小水管服务器资源不足,流量消耗异常, 已经影响到普通用户的打开速度了。
一般来说,屏蔽蜘蛛用Robots.txt, 但是很多蜘蛛都不讲武德,无视Robots。 所以得从服务器配置方面入手。

一: 修改Google来该频率次数。

  1. 谷歌站长工具中进行限制(google search console),访问,https://www.google.com/webmasters/tools/home?hl=zh-CN

2.没有验证站点所有权的,先验证站点权限,然后访问老版本地址,把下面网址中的网站地址换成你的网址,

https://www.google.com/webmasters/tools/settings?siteUrl=https://www.8kmm.com

 

二: 屏蔽垃圾蜘蛛。

从Ningx配置入手, 打开Ningx配置文件。 在server节点下, 加入以下红色代码:
server
{
if ($http_user_agent ~ “opensiteexplorer|MauiBot|FeedDemon|SemrushBot|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|semrushbot|alphaseobot|semrush|Feedly|UniversalFeedParser|webmeup-crawler|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports Bot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$” ) {
    return 404;
}

}

如果有要允许的蜘蛛, 可以自行清除该蜘蛛Useragent。

 

 

© 版权声明

相关文章

文章目录

    暂无评论

    暂无评论...