昨天一台服务器崩溃了,今天播播资源网站的主机也崩溃了,内存和CPU占用100%,重启了多次,今天早上看了自己一个网站监控和日志,日志发现几乎全是一个SemrushBot/6~bl; +http://www.semrush.com/bot.html的垃圾蜘蛛访问的,刚开始没多想,就在防火墙把IP段屏蔽了,屏蔽后安全了半晚,早上起来服务器一样挂了。原因换其他IP了,禁止国外访问也没效果百度了下,也知道这东西就是国外的一个垃圾蜘蛛,他不遵守robots规则的,知道攻击的方法后也就知道解决方法了。

主要问题日志如下

20241104115302849

20241104115407831

网多上有很多方法收集下,具体效果得几天后看哪种好

方法一:直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛

20241104115629573

新建robots.txt文件,把下面代码粘进去保存,

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /

User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /

User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /

第二种方法,宝塔面板网站设置——配置文件,将需要屏蔽的蜘蛛写进配置文件代码里:

#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}

保存后重启Nginx生效

20241104115831230

 

第三种方法防火墙里加过滤规则

20241104115955884

狗日的垃圾再来攻击再来抓就送你吃403!

 

见的网络恶意垃圾爬虫蜘蛛

上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。

1、MJ12Bot

MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

2、AhrefsBot

AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

3、SEMrushBot

SEMrushBot也是SEO、营销公司的网络爬虫。

4、DotBot

DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。

5、MauiBot

MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

6、MegaIndex.ru

这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

7、BLEXBot

这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。

SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。

DotBot,这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽

AhrefsBot,这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。

MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。

MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。

MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

BLEXBot,这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

等等……………

服务声明: 本网站所有发布的源码、软件和资料均为作者提供或网友推荐收集各大资源网站整理而来,仅供功能验证和学习研究使用,您必须在下载后24小时内删除。不得使用于非法商业用途,不得违反国家法律,否则后果自负!一切关于该资源商业行为与本站无关。如果您喜欢该程序,请支持购买正版源码,得到更好的正版服务。如有侵犯你的版权合法权益,请邮件或QQ:3089659733与我们联系处理删除(邮箱:ynzsy@qq.com),本站将立即更正。