2022
我们一起努力

VirMach教程:nginx反爬虫禁止一些无用User Agent抓取(virmath)

尽管现在VPS的可选品牌很多,但VirMach这家美国主机商还是非常受欢迎的,性能稳定,价格低廉是他们的优势,故而在国内是有口皆碑的。nginx环境是最受欢迎的WEB服务器。网络上的爬虫非常多,有对网站收录有益的,比如百度蜘蛛(Baiduspider),也有不但不遵守robots规则对服务器造成压力,还不能为网站带来流量的无用爬虫。

为了禁止垃圾User Agent爬虫抓取网站,达到节省宽带和节省资源的目的,就得想办法禁止垃圾User Agent爬虫来抓取自己的网站了,这里小编就给大家分享下NGINX下是如何实现禁止无用User Agent抓取网站的。

在/usr/local/nginx/conf/rewrite目录下新建agent_deny.conf文件【lnmp默认目录】,内容如下:

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~ “FeedDemon|JikeSpider|Indy Library|Alexa
Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft
URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReports
Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$”
) {
return 403;
}
#禁止非GET|HEAD|POST方式的抓取
if ($request_method !~ ^(GET|HEAD|POST)$) {
return 403;
}

然后再需要使用的网站配置文件中加入如下内容:

include agent_deny.conf;

好了后,重启下你的nginx即可。nginx下就禁止了无用User Agent抓取网站内容了。

来源:idcspy.com/virmach-20014.html

本站声明:内容来源于网络,内容不代表本站立场,仅供阅读参考,文章版权归原作者“本公司cmy.cn”所有。如有侵权,请联系我们删除。

免责声明:本站发布的内容(图片、视频和文字)以原创、来自本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容,联系我们56dr_com,同时欢迎投稿传递力量。

本文从“特网科技(56dr.com)”转载,原作者保留一切权利,若侵权请联系删除。

赞(0)
文章名称:《VirMach教程:nginx反爬虫禁止一些无用User Agent抓取(virmath)》
文章链接:https://www.fzvps.com/156201.html
本站文章来源于互联网,如有侵权,请联系管理删除,本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。
图片版权归属各自创作者所有,图片水印出于防止被无耻之徒盗取劳动成果的目的。

评论 抢沙发

评论前必须登录!