阐述304状态码的起因、危害及处理304状态码的思路
 
通常,站长抱怨蜘蛛在304状态下获取返回代码,而抓取的次数越来越少。搜索引擎将尽努力提高检索调用率、准确性和新鲜度,以满足自身用户体验,这将导致引擎不得不专注于高质量内容源的网站,只有这样,搜索结果的质量才能更符合搜索者的经验。 由此我们认为:搜索引擎爬虫更喜欢频繁更新内容源的网站。通过对特定时间内返回到网站的状态代码进行爬行,可以调整网站的爬行频率。如果站点在一段时间内处于304状态状态,引擎爬虫可能会减少它们对站点的爬虫次数。相反,如果网站的变化非常迅速,每次爬虫都能获得新版本,爬虫的回报率将随着时间的推移而增加。 无论是少抓还是304,这都是一种现象,而不是问题的起因。假设网站返回200,我们能达到增加排名和带来流量的目的吗?相反,我们应该考虑一下生产304的原因。改变304对网站的目标有什么影响?我们不能忽视总的目的。该标签强调了该过程的细节,解决了304/200。 一、304的状态是如何形成的? 为了提高网站访问速度,服务器为以前访问过的部分页面建立了缓存机制。当客户机在这里请求这些页面时,服务器将根据缓存的内容判断页面是否相同。如果页面相同,它将直接返回到304。此时,客户端调用缓存的内容,而不必进行第二次调用。下载,可以说304在一定程度上起到了降低服务器带宽、提高蜘蛛爬行效率的作用。 二、304状态码产生原因? 1、页面更新周期长或无更新 2、纯静态页面或强制静态HTML生成 三、304状态处理方法 1、首先对生成的304页进行细分。什么样的页面返回304?这些页面应该返回304吗? 2、这些页面的生成方式是什么?有更新机制吗?更新机制是否与蜘蛛抓取网站的频率一致? 3、页面更新区域的位置是否合理?它是否位于页面主要内容的承载区域? 四、304状态代码太多可能导致以下问题: 1、停止网站快照 2、收录量减少 3、权重下降 五、如何减少304返回码呢? 首先,内容更新要迎合百度蜘蛛,分析日志,记录蜘蛛访问的时间,大致可以得到蜘蛛访问的频率,然后据此,更新文章:一定要原创+复制,不能纯粹收集。复制还需要新和的质量资源,让蜘蛛过来抓取,这将返回超过200个正常代码。 其次,尽量添加一个交互部分,现在大型网站已经基本上做到了这一点,比如评论、消息等等。大型网站的更新可能变化很小,但是有了这些交互,用户会发送一些内容,网站会有很多新的东西。