昨天一台服务器崩溃了,今天播播资源网站的主机也崩溃了,内存和CPU占用100%,重启了多次,今天早上看了自己一个网站监控和日志,日志发现几乎全是一个SemrushBot/6~bl; +http://www.semrush.com/bot.html的垃圾蜘蛛访问的,刚开始没多想,就在防火墙把IP段屏蔽了,屏蔽后安全了半晚,早上起来服务器一样挂了。原因换其他IP了,禁止国外访问也没效果百度了下,也知道这东西就是国外的一个垃圾蜘蛛,他不遵守robots规则的,知道攻击的方法后也就知道解决方法了。
主要问题日志如下
网多上有很多方法收集下,具体效果得几天后看哪种好
方法一:直接在根目录下robos.txt文件里面屏蔽掉相关垃圾蜘蛛
新建robots.txt文件,把下面代码粘进去保存,
User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: ExtLinksBot
Disallow: /
User-agent: hubspot
Disallow: /
User-agent: leiki
Disallow: /
User-agent: webmeup
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: googlebot-image
Disallow: /
User-agent: googlebot-mobile
Disallow: /
User-agent: yahoo-mmcrawler
Disallow: /
User-agent: yahoo-blogs/v3.9
Disallow: /
User-agent: Slurp
Disallow: /
User-agent: twiceler
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: psbot
Disallow: /
User-agent: YandexBot
Disallow: /
第二种方法,宝塔面板网站设置——配置文件,将需要屏蔽的蜘蛛写进配置文件代码里:
#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (SemrushBot|DotBot|MJ12bot|AhrefsBot|MauiBot|MegaIndex.ru|BLEXBot|ZoominfoBot|ExtLinksBot|hubspot|leiki|webmeup)) {
return 403;
}
保存后重启Nginx生效
第三种方法防火墙里加过滤规则
狗日的垃圾再来攻击再来抓就送你吃403!
见的网络恶意垃圾爬虫蜘蛛
上面说的搜索引擎爬虫能给网站带来流量,也有许多爬虫除了增加服务器负担,对网站没任何好处,应该屏蔽掉。
1、MJ12Bot
MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。
2、AhrefsBot
AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。
3、SEMrushBot
SEMrushBot也是SEO、营销公司的网络爬虫。
4、DotBot
DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。
5、MauiBot
MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。
6、MegaIndex.ru
这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
7、BLEXBot
这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议。
SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。
DotBot,这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽
AhrefsBot,这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。
MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。
MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。
MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
BLEXBot,这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议
等等……………
评论(0)