解读指数、收录、索引之间错综复杂的包含关系
 
索引和指数之间有什么关系?为什么有时包含大于索引,有时索引大于包含?当时,由于时间关系,我对朋友圈的前半个问题作了简短的回答。一般内容如下:在蜘蛛捕获网页后,如果蜘蛛认为网页中的信息有价值,则将其包括在内。所包含的网络蜘蛛将被分为不同的数据库。不同数据库中的网页将按spider进行排名,因此当用户搜索相关信息时,搜索结果页面会显示网页在数据库中的相关排名位置。简而言之,只有在包含索引的情况下才会有索引。今天,我在这里就问题的后半部分发表我个人的观点,并对问题的前半部分进行补充和改进。所谓的包含实际上是指网站的包含,更直接的是,网站页面是由蜘蛛发现的,分析后有意义,然后由搜索引擎包含。索引是指包含在网页中的搜索引擎进行数据库处理,并等待网民索引,在索引过程中会有一个筛选过程,即有效索引和无效索引。上面的解释大致是相同的过程:抓取-包含-过滤-索引(这也是百度站长平台给出的过程)。也就是说,网页首先被包含,然后搜索引擎过滤包含的网页数据库,以索引有价值的网页并将其呈现给网民。由于索引和索引之间存在这样的关系,理论上索引的数量应该大于索引的数量。然而,很多SEO的朋友和个人网站管理员会发现索引大于索引,所以让我们看看索引和索引之间的区别。理论上大于指数的包含量大于指数。在良好的网站包含情况下,指数略低或大致等于索引量是一种相对健康的状态。如果成交量比指数成交量高得多,那么我们应该看看这种情况是一直存在还是近才出现。如果这种情况发生在不远的将来,有必要分析是什么变化导致了网页的索引量在不远的将来有如此大的波动。如果一直是这样的话,我们应该认真考虑网站的整体结构、质量、权重等是否存在较大的问题,在同一行业中处于较低的水平。指数大于包含指数的事实有些矛盾。毕竟,只有在有包含的情况下才能有索引。那么,指数多只能等于包含量。它怎么能比包容更重要呢?原因可能是:网站中有一定数量的重复页面。在这些页面上启用301跳转后,由于过滤,我们查询的数据量小于索引的数据量;索引卷数据的查询结果存在约6小时的时间延迟,采集的数据量是实时的,期间的链接可能是由于某些操作不当等原因造成的。因此,索引可能大于包含内容。当然,对于索引和包含之间的关系还有另一个相反的观点,有兴趣的朋友可以去了解它。