关于Baiduspider-render蜘蛛异常抓取的问题

Baiduspider-render是百度最近刚上的蜘蛛,去专门抓取CSS  JS 等资源的蜘蛛,可能是刚出来的原因不太友好,抓取比较疯狂,很多404内容一直在重复抓取。

问题现象:网站连接数很大,带宽占用高,开启日志查看全部是Baiduspider-render抓取,而且全部是抓取的404页面,oh.mygod!

经过详细分析是其他网站调用了我的网站上的JS文件导致异常。

 

解决办法:屏蔽Baiduspider-render,不会影响到收录

RewriteEngine On
#Block spider
RewriteCond %{HTTP_USER_AGENT} “Baiduspider-render” [NC]
RewriteRule !(^robots\.txt$) – [F]

 

IIS规则

<rule name=”Block spider”>
<match url=”(^robots.txt$)” ignoreCase=”false” negate=”true” />
<conditions>
<add input=”{HTTP_USER_AGENT}” pattern=”Baiduspider-render” ignoreCase=”true” />
</conditions>
<action type=”CustomResponse” statusCode=”403″ statusReason=”Forbidden” statusDescription=”Forbidden” />
</rule>

 

 

并且要屏蔽调用我网站内容的第三方网站

RewriteCond %{HTTP_REFERER}     XXX.com [NC]

RewriteRule ^(.*)$ -[F]

 

IIS7规则:

<rule name=”屏蔽XXX.com访问”>
<match url=”^(.*)$” ignoreCase=”false” />
<conditions logicalGrouping=”MatchAll”>
<add input=”{HTTP_REFERER}” pattern=”ads.acesse.com” />
</conditions>
<action type=”AbortRequest” />
</rule>

 

About sun 83 Articles
85后青年,自诩为伪文艺青年

Be the first to comment

Leave a Reply

Your email address will not be published.


*