大家好,今天百度资源平台官方直播了一节公开课,主要是和大家说说网站抓取和收录的一个原理,这里我给大家做了详细的笔记(一字不漏),看完以后,可以说做收录基本上不是什么大问题了。

百度爬虫工作原理

首先百度的抓取器会和网站的首页进行交互,拿到网站首页之后会对页面进行理解,理解包含(类型、价值计算),其次会把网站首页的所有超链接提取出来。如下图所示,首页的超链接被称为“后链”,等到下一轮抓取的时候,抓取器会继续和这些超链接的页面进行交互,拿到页面进行提炼,依次不断一层一层的抓取,这就构成了抓取环路。

百度官方公开课:网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

抓取友好性优化

1、URL规范:

任何一个资源都是通过URL来抓取的,URL相对于网站的门牌号,那么URL的规划就非常重要了。尤其是如上图所示,“待抓URL”的环境,爬虫在首页的时候,并不知道URL是什么样子。

优秀的URL的特点是主流的、简单的,竟可能不要去做一些非主流的样式,让人看起来很直观的URL。

优秀URL示例:

百度官方公开课:网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示,第一条是百度知道的链接,整个链接分成三段,第一段是网站的站点,第二段是资源类型,第三段是资源的ID。这种就是非常简单,并且爬虫看起来非常优质的URL。

如上图所示,第三条相对百度知道多了一个段,首先第一段是网站的站点,第二段是站点的一级目录,第三段是站点的二级目录,最后一段是站点的内容ID。像这种的URL也是符合标准的。

不友好的URL示例:

百度官方公开课:网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示,这种链接一看就很长很复杂,有经验的站长都看得出,这种URL包含了字符,这个URL内包含了文章的标题,导致URL偏长,一个偏长的URL相对比简单的URL是不占优势的,百度站长平台的规则有明确的说到URL不能超过256字节,个人建议URL长度控制在100字节之内,100个字符足够展现出URL的资源了。

 1/4   上一页 1 2 3 4 下一页 尾页

文章TAG:
下一篇