Baiduspider-render是百度最近刚上的蜘蛛,去专门抓取CSS JS 等资源的蜘蛛,可能是刚出来的原因不太友好,抓取比较疯狂,很多404内容一直在重复抓取。
问题现象:网站连接数很大,带宽占用高,开启日志查看全部是Baiduspider-render抓取,而且全部是抓取的404页面,oh.mygod!
经过详细分析是其他网站调用了我的网站上的JS文件导致异常。
解决办法:屏蔽Baiduspider-render,不会影响到收录
RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT} “Baiduspider-render” [NC]
RewriteRule !(^robots\.txt$) – [F]
IIS规则
<rule name=”Block spider”>
<match url=”(^robots.txt$)” ignoreCase=”false” negate=”true” />
<conditions>
<add input=”{HTTP_USER_AGENT}” pattern=”Baiduspider-render” ignoreCase=”true” />
</conditions>
<action type=”CustomResponse” statusCode=”403″ statusReason=”Forbidden” statusDescription=”Forbidden” />
</rule>
并且要屏蔽调用我网站内容的第三方网站
RewriteCond %{HTTP_REFERER} XXX.com [NC]
RewriteRule ^(.*)$ -[F]
IIS7规则:
<rule name=”屏蔽XXX.com访问”>
<match url=”^(.*)$” ignoreCase=”false” />
<conditions logicalGrouping=”MatchAll”>
<add input=”{HTTP_REFERER}” pattern=”ads.acesse.com” />
</conditions>
<action type=”AbortRequest” />
</rule>
Leave a Reply