解决百度蜘蛛抓取异常问题,巩固网站关键词首页排名
 
有一些内容质量高的网页,用户可以正常访问,但百度pider无法正常访问和抓取,导致搜索结果覆盖率不足,给百度搜索引擎和网站带来损失。百度称这种情况为抢占例外”。
百度搜索引擎会考虑大量内容无法正常获取的网站在用户体验上存在缺陷,降低对网站的评价。在抓取、索引和排序方面,百度搜索引擎将受到一定程度的负面影响,终影响到网站从百度获得的流量。
以下描述了对站长异常抓取的一些常见原因:
服务器连接异常有两种情况:(1)网站不稳定,百度spider在尝试连接时暂时无法连接到您网站的服务器;(2)百度spider一直无法连接到您网站的服务器。
1、服务器连接异常的原因通常是您的网站服务器太大和过载。您的网站也可能运行不正常。请检查网站的web服务器(如Apache、IIS)是否正常安装和运行,并使用浏览器检查主页面是否可以正常访问。您的网站和主机也可能会阻止Baiduspider的访问。你需要检查网站和主机的防火墙。
2、网络运营商例外:网络运营商分为电信和联通两类。百度spider无法通过电信或网通访问您的网站。如果发生这种情况,您需要联系网络服务提供商,或购买空间与二线服务或CDN服务。
3、DNS异常:当Baiduspider无法解析您网站的IP地址时,将出现DNS异常。可能是您网站的IP地址有误,或者域名服务商已经禁止了Baiduspider。请使用whois或host检查您网站的IP地址是否正确和可解析。如果没有,请联系域名注册商更新您的IP地址。
4、IP阻塞:IP阻塞是限制网络的导出IP地址,禁止该IP段的用户访问内容。这里,它具体指的是百度piderip的屏蔽。此设置仅在您的网站不希望百度pider访问时才需要。如果您希望百度pider访问您的网站,请检查百度spider IP是否错误地添加到相关设置中。你的网站所在的空间服务提供商也有可能禁止百度IP。此时,您需要联系服务提供商以更改设置。
5、UA阻塞:UA是用户代理。服务器通过UA识别访客的身份。当一个网站访问一个指定的UA并返回一个异常页面(如403500)或跳转到另一个页面时,称为UA阻塞。此设置仅在您不希望Baiduspider访问您的网站时才需要。如果你想百度访问你的网站,是否有百度在用户代理相关设置并及时修改它。
百度蜘蛛抓取异常问题
6、死链:页面无效,不能向用户提供任何有价值信息的页面为死链,包括协议死链和内容死链。
协议死链:页面的TCP协议状态/HTTP协议状态清楚地表示出死链,如404、403、503状态等。
内容死链:服务器返回的状态是正常的,但内容已被更改为不存在的、已被删除或需要权限的信息页,与原始内容无关。
对于死链,我们建议网站使用协议死链,通过百度站长平台死链工具提交给百度,这样百度可以更快地找到死链,减少死链对用户和搜索引擎的负面影响。
7、异常跳转:跳转是将网络请求重定向到另一个位置。异常跳转指以下情况:
1)当前页面为无效页面(内容已被删除、死链等),直接跳转到上一个目录或首页,百度建议站长删除无效页面的入口超链接
注:如果长期跳转到其他域名,如在网站上更改域名,百度建议使用301跳转协议进行设置。
8、其他网站异常原因:
1)对于百度推荐人的例外情况:网页返回与百度推荐人正常内容不同的行为。
2)对于百度UA的例外情况:返回百度UA的网页行为与页面的原始内容不同。
3)JS跳转异常:网页加载了百度无法识别的JS跳转代码,用户通过搜索结果进入网页后跳转。
4)压力过大造成的意外阻塞:百度会根据网站规模、访问量等信息,自动设置合理的压力进行抓取。但在压力控制异常等异常情况下,服务器会根据自身负载进行保护意外闭锁。在这种情况下,请在返回码中返回503(意思是服务不可用”),以便百度spider在一段时间内再次尝试获取链接。如果该网站处于空闲状态,则将成功获取该网站。