我们通常将搜索引擎的蜘蛛抓取和访问视为同一概念,但严格来说,它们是有区别的,但它们的作用是相互协同的结果。
抓取是指蜘蛛获取页面的信息、参数和属性,包括内容和代码的结构情况。
访问是指蜘蛛以用户的身份对网站进行正常访问,包括浏览体验和阅读流畅性。
以百度搜索为例,通常会有两个IP蜘蛛同时访问网站,这些IP通常以116和220开头。有些人将它们视为权重蜘蛛和抓取蜘蛛,这种理解也是可以的。
然而,其他搜索引擎通常只有一个IP的蜘蛛,因此很难区分是抓取还是访问。正因为这个原因,很多人不认同搜索引擎的蜘蛛分为抓取和访问。
从技术逻辑的角度来看,蜘蛛应该有访问和抓取的区别。
我们无法看到、无法表达的东西,尤其是技术层面的东西更难以确定是否存在。如果从技术逻辑的角度仔细思考这个问题,很可能会发现访问和抓取是有区别的。
在国内,大多数搜索引擎的蜘蛛会访问网站,但不会收录网站的内容页面。这是什么情况呢?很可能只是蜘蛛来访问,发现了网站的内容页面,为什么不抓取呢?因为收录肯定是要先抓取的。
另一种常见情况是网站的内容页面被蜘蛛访问了,但过一段时间才会被收录,而这段时间内没有蜘蛛访问。这如何解释访问和抓取的区别呢?目前的解释是先前的蜘蛛是抓取,然后执行内部的模拟访问、页面分析、内容判断和预存评估。
实际上,只要是搜索引擎的蜘蛛来访问就可以了,不必太在意是抓取还是访问。
不同搜索引擎的蜘蛛工作方式是有区别的,这并不意味着谁更好或更差,只是根据我们已经公开了解到的事实,搜索引擎会模拟用户进行正常的浏览访问,可以理解为页面检测和诊断,否则搜索引擎如何知道已经收录的页面是否存在问题呢?它们会使用最节省资源的蜘蛛行为进行不定时的复访。
然而,在SEO黑帽技术中,有一种针对搜索引擎蜘蛛访问的手段,即用户访问真实的广告落地页(A),而蜘蛛访问伪造的干净落地页(B),简称为"蜘蛛访问页"。这种手段的难度在于收集没有蜘蛛标识的IP地址,以识别和区分访问AB页。