屏蔽国外垃圾无用蜘蛛semrush.com/bot.html 防止大量抓取攻击导致主机内存带宽崩溃-播播资源

昨天一台服务器崩溃了，今天播播资源网站的主机也崩溃了，内存和CPU占用100%，重启了多次，今天早上看了自己一个网站监控和日志，日志发现几乎全是一个SemrushBot/6~bl; +http://www.semrush.com/bot.html的垃圾蜘蛛访问的，刚开始没多想，就在防火墙把IP段屏蔽了，屏蔽后安全了半晚，早上起来服务器一样挂了。原因换其他IP了，禁止国外访问也没效果百度了下，也知道这东西就是国外的一个垃圾蜘蛛，他不遵守robots规则的，知道攻击的方法后也就知道解决方法了。

主要问题日志如下

网多上有很多方法收集下，具体效果得几天后看哪种好

方法一：直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛

新建robots.txt文件，把下面代码粘进去保存，

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /

User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /

User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /

第二种方法，宝塔面板网站设置——配置文件，将需要屏蔽的蜘蛛写进配置文件代码里：

#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}

保存后重启Nginx生效

第三种方法防火墙里加过滤规则

狗日的垃圾再来攻击再来抓就送你吃403！

见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量，也有许多爬虫除了增加服务器负担，对网站没任何好处，应该屏蔽掉。

1、MJ12Bot

MJ12Bot是英国著名SEO公司Majestic的网络爬虫，其抓取网页给需要做SEO的人用，不会给网站带来流量。

2、AhrefsBot

AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用，不会给网站带来流量。

3、SEMrushBot

SEMrushBot也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot是Moz.com的网页爬虫，抓取数据用来支持Moz tools等工具。

5、MauiBot

MauiBot不同于其他爬虫，这个爬虫连网站都没有，UA只显示一个邮箱：”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫，竟然遵循robots协议，算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议。

SemrushBot，这是semrush下面的一个蜘蛛，是一家做搜索引擎优化的公司，因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处，好在它还遵循robots协议，因此可以直接在robots屏蔽。

DotBot,这是moz旗下的，作用是提供seo服务的蜘蛛，但是对我们并没有什么用处。好在遵循robots协议，可以使用robots屏蔽

AhrefsBot，这是ahrefs旗下的蜘蛛，作用是提供seo服务，对我们没有任何用处，遵循robots协议。

MJ12bot，这是英国的一个搜索引擎蜘蛛，但是对中文站站点就没有用处了，遵循robots协议。

MauiBot，这个不太清楚是什么，但是有时候很疯狂，好在遵循robots协议。

MegaIndex.ru，这是一个提供反向链接查询的网站的蜘蛛，因此它爬网站主要是分析链接，并没有什么作用。遵循robots协议。

BLEXBot,这个是webmeup下面的蜘蛛，作用是收集网站上面的链接，对我们来说并没有用处。遵循robots协议

等等……………

服务声明：本网站除正版商用版块可商用外，其他所有发布的源码、软件和资料均为作者提供或网友推荐收集各大资源网站整理而来，仅供功能验证和学习研究使用，您必须在下载后24小时内删除。不得使用于非法商业用途，不得违反国家法律，否则后果自负！一切关于该资源商业行为与本站无关。如果您喜欢该程序，请支持购买正版源码，得到更好的正版服务。如有侵犯你的版权合法权益，请邮件或QQ：3089659733与我们联系处理删除（邮箱:ynzsy@qq.com），本站将立即更正。

屏蔽国外垃圾无用蜘蛛semrush.com/bot.html 防止大量抓取攻击导致主机内存带宽崩溃

评论(0)

提示：请文明发言

屏蔽国外垃圾无用蜘蛛semrush.com/bot.html 防止大量抓取攻击导致主机内存带宽崩溃

评论(0)

提示：请文明发言

相关文章

宝塔面板环境安装教程

window 2016安装OpenSSL 生成https证书

在宝塔中把mysql5.5版本升级至mysql5.6方法

应用框架附件设置七牛云无法保存提示ucketb填写错误处理方法