站长必知:各搜索引擎的爬虫UA和禁止抓取的robots写法
发布时间:2018-11-28 00:20:49作者:魏义齐阅读:()评论:
为什么要写这篇文章呢,这都源自神马这个大傻货对phpcms网站动态链接的抓取,抓取的不是正常的动态链接但还能访问网站的文章。
虽然神马只做移动端,但一开始我还不愿放弃神马的这点流量,一天一两个有比没有强,但是问题来了,比如动态链接index.php?m=content&c=index&a=show&catid=1&id=1,神马抓取的是index.php?a=show&c=index&catid=1&id=1&m=content,依然可以访问文章,一开始我还做做301跳转,可是天天做301跳转就很操蛋了,好吧,你不好好抓取我就把你彻底屏蔽,如果你遵守robots协议的话。
禁止神马抓取全站:
- User-agent: Yisouspider
- Disallow: /
这个在神马站长平台里可以看到,禁止抓取特定目录所有搜索引擎写法都一样,在这不单提神马的。
搜狗是比较流氓的,也就它不声明自家的蜘蛛程序:
禁止抓取全站各搜索引擎的写法都一样,我只罗列出各搜索引擎的爬虫:
百度:baiduspider;360:360Spider;谷歌:Googlebot;bing:bingbot。
禁止所有蜘蛛爬虫抓取某一个页面的写法:
<meta name="robots" content="noindex,nofollow" />
禁止某一个蜘蛛爬虫抓取某一个页面的写法把name里面的robots改为具体的爬虫名称即可。
更多特殊的禁止抓取方式,大家可访问我之前的文章“盘点竞价手机网页对meta标签的特殊需求”并结合本文了解。
对于不遵守robots规则的爬虫,可以用.htaccess文件来屏蔽它,比如百度:
RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^.*Baiduspider.* [NC]
RewriteRule .* - [F]
如果是Apache服务器,可以修改配置文件httpd.conf:
<Directory "/">
...
SetEnvIfNoCase User-Agent ^.*Baiduspider.* bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
...
</Directory>
如果是Nginx服务器,可以修改配置文件nginx.conf:
Server{
...
location / {
if ($http_user_agent !~ Baiduspider) {
return 403;
}
}
...
}
相关阅读
-
无相关信息
上一篇:利用编辑器源码功能给文章添加视频的方法(其它cms通用)下一篇:长文:让你少折腾至少一年的个人网站建站经验
原创不易,您的赞助就是博主更新的动力!
赞助请备注,8.88元及以上可在赞助光荣榜留下外链信息。
完全自托管的评论系统
-
东方星雨
-
deanhan
-
1264822519
-
aini3311
-
a1051020101
-
weiyiqi
- 微信内置浏览器如何清除缓存和加速打开网页(4308)
- 封禁ip的两种方法(4240)
- windows10系统下如何彻底卸载phpstudy(2946)
- 使用vpn时,使用百度云加速的网站不能访问的两种解决方法及注意事项(2803)
- 彻底解决win10文件夹右上角出现箭头的方法(2570)
- 前端工程师必须要看的五个个人技术博客(1929)
- 网站被莫名其妙植入广告怎么办(1513)
- 站长必知:各搜索引擎的爬虫UA和禁止抓取的robots写法(1372)
- 多吉云——网站需求一站式解决,附多吉云使用注意事项(1348)
- 网站被镜像怎么办(1338)
- 电脑上的图片和视频不显示缩略图如何解决?(2024-05-05)
- 多吉云——网站需求一站式解决,附多吉云使用注意事项(2023-10-08)
- 使用百度云加速的网站在谷歌浏览器访问主域出现502报错如何解决?(2023-02-27)
- 封ip的五大原则(2023-02-16)
- 你不知道的西部数码省钱妙招(2022-11-15)