设计出品
扫描关注网站建设微信号

扫一扫微信二维码

Spider抓取大站优先策略

新乡云优化2019-10-25经验之谈
Spider抓取大站优先策略
大站优先策略,这个思路很简单。被搜索引擎认定为“大站”的网站,一定有着稳定的服务器、良好的网站结构、优秀的用户体验、及时的资讯内容、权威的相关资料、丰富的内容类型和庞大的网页数量等特征,当然也会相应地拥有大量高质量的外链。也就是在一定程度上可以认定这些网站的内容就可以满足相当比例网民的搜索请求,搜索引擎为了在有限的资源内尽最大的努力满足大部分普通用户的搜索需求,一般就会对大站进行“特殊照顾”。因此大家可以看到新浪、网易类网站上自主发布的内容几乎都会被百度秒收,因为百度搜索的Spider在这些网站上是7x24小时不间断抓取的。如果有新站的链接出现在这些网站的重要页面上,也会相应地被快速抓取和收录。曾经有朋友试验新站秒收的策略:把新站的链接推到一些大站的首页,
或挂到大站首页所推荐的页面中,效果还是很不错的。
这两个策略与前面所讨论的广度优先策略和深度优先策略相结合的抓取方式是有共通点的。
比如,从另一个角度来看,如果Spider按照前两个策略抓取,一个页面获得的导入链接越多,被提前抓到的几率就越大,也就是和重要页面优先抓取是趋同的;
在Spider资源有限的情况下广度优先策略和深度优先策略的结合分配本身就会以站点的大小进行区别对待,大网站的页面有着先天的高重要程度,往往也容易获得更多的链接支持。
所以宏观来看,这几个策略在抓取表现上有相近之处,在实际的抓取过程中相辅相成。
相对于整个互联网的网页来说,Spider的资源再充足也是有限的,所以优秀的Spider程序应该首先保证对重要网页的抓取,然后才是尽力抓取尽可能全的互联网网页信息。
由此也可以看出依靠外部链接来引导Spider和提升网站权重,以及依靠内容长期运营网站权重的重要性。
Spider并不会“爬”
Spider抓取一个网页后会优先把网页中的URL提取出来,同时记录和计算URL的形式、位置、锚文本、当前页所赋予的权值等信息,然后把这些URL合并到抓取队列中,并根据每个URL所附有的总权值等信息进行抓取队列内排序。Spider就是根据这个不断变化顺序的URL队列来抓取网页内容的,并不是从一个页面沿着链接爬到另一个页面的抓取过程。因此严格来说Spider是不会“爬”的,站长在网站日志中也可以看到Spider对网站的访问并没有refer,都是直接访问。
以往一般会把Spider抓取网页的过程形象地描述为搜索引擎放出Spider,然后这个Spider就沿着链接不断地抓取网页,这只是一种形象的比喻而已。比如以前描述类似万年历的“蜘蛛陷阱”时,会有这样的描述“蜘蛛进入到蜘蛛陷阱后会一层一层地无限抓取下去”“蜘蛛进去就出不来了”“把蜘蛛永远留在站内了”,这类描述给大家传达的意思都是Spider沿着链接从一个网页到另一个网页的爬行过程。其实按照实际的Spider设计,“蜘蛛陷阱”并不是把Spider留在了站内“出不去了”,而是如果不加控制的话,Spidei会在“蜘蛛陷阱”的网页集合中收集到无数无意义的URL并放入抓取队列中,这些URL对应的网页并没有实际有意义的内容,从而会造成Spider抓取资源的浪费。所谓的“把蜘蛛强制留在站内”对应实际的Spider抓取机制,应该是如果Spider不加限制地收集URL,就需要无限制地抓取“蜘蛛陷阱”内的URL,然而“蜘蛛陷阱”内的URL可能是无限的,并不是“一个蜘蛛掉陷阱里出不来了”。
也就是说,Spider对网页的抓取是单次访问抓取,每访问一个页面都会把页面上的信息抓取回来,而不是把一个“小蜘蛛”派到网站上,然后沿着网站的链接爬行抓取大量的页面之后再返回给服务器。
文章关键词