阿里云虚拟主机被搜索引擎爬虫访问耗费大量流量解决方法

发布时间:2019-03-22 09:47:56

问题场景:

客户使用阿里云虚拟主机,网站被搜索引擎爬虫访问耗费大量流量和带宽,如何处理。

解决方法:

客户可以通过在站点根目录下创建 Robots.txt,Robots.txt 文件是网站的一个文件,搜索引擎蜘蛛抓取网站首先就是抓取这个文件,根据里面的内容来决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制蜘蛛的爬取路径。

注:Robot.txt协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

1. 首先,先了解一下目前搜索引擎和其对应的 User-Agent,如下:

搜索引擎         User-Agent

AltaVista        Scooter

baidu            Baiduspider

Infoseek         Infoseek

Hotbot           Slurp

AOL Search       Slurp

Excite           ArchitextSpider

Google           Googlebot

Goto             Slurp

Lycos            Lycos

MSN              Slurp

Netscape         Googlebot

NorthernLight    Gulliver

WebCrawler       ArchitextSpider

Iwon             Slurp

Fast             Fast

DirectHit        Grabber

Yahoo Web Pages  Googlebot

LooksmartWebPages Slurp 

 

2. Robots.tx t样例代码:

例1. 禁止所有搜索引擎访问网站的任何部分

User-agent:

Disallow: /

例2. 允许所有的搜索引擎访问网站的任何部分

User-agent:

Disallow:

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider

Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider

Disallow:

例5. 禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /data/

注意事项:

三个目录要分别写。

请注意最后要带斜杠。

带斜杠与不带斜杠的区别。

例6. 允许访问特定目录中的部分url

实现a目录下只有b.htm允许访问

User-agent: *

Allow: /a/b.htm

Disallow: /a/

如果问题还未能解决,请联系凯铧互联售后技术支持。阿里云代理商凯铧互联提供阿里云服务器/企业邮箱等产品的代购服务,同样的品质,更多贴心的服务,更实惠的价格。 阿里云代理商凯铧互联会为您提供一对一专业全面的技术服务,同时还能为您提供阿里云其他产品购买的专属折扣优惠。通过凯铧互联购买可以获得折上折优惠!若您需要帮助可以直接联系我方客服,阿里云代理商凯铧互联专业技术团队为您提供全面便捷专业的7x24技术服务。 电话专线:136-5130-9831,QQ:3398234753。

为什么选择我们:北京凯铧互联科技有限公司(简称凯铧互联)由多名前阿里云资深技术专家创立,核心员工来自阿里巴巴、腾讯服务器运维团队,团队90%的成员均是超过10年具备专业运维经验的精英。作为阿里云,腾讯云,百度云,金山云,华为云重要的合作伙伴,凯铧互联专注于为企业用户提供云计算及云服务器解决方案。公司总部设在北京,并在内蒙设有办事处,服务全国各地企业,与互联网专业公司及主流服务商建立了良好合作关系。

  凯铧互联始终坚持帮助企业节省成本、提高效率、创造价值的原则,力求为企业及创业型团队 提供可靠、安全、稳定的运维服务,与之共同成长。做为一家综合性方案商,为用户获得优质服务的同时,秉承"专业规划、周到服务"的服务理念,根据用户的实际情况,充分考虑各种网络资源的特点及功效,为用户量身定做一套适合于其实际应用需求的网络应用方案。帮助用户利用互联网的力量展开新的营销方式,并大大缩短了项目实施周期,获得用户的一致好评!