百度官方公开课：网站抓取建设指南!

大家好，今天百度资源平台官方直播了一节公开课，主要是和大家说说网站抓取和收录的一个原理，这里我给大家做了详细的笔记(一字不漏)，看完以后，可以说做收录基本上不是什么大问题了。

百度爬虫工作原理

首先百度的抓取器会和网站的首页进行交互，拿到网站首页之后会对页面进行理解，理解包含(类型、价值计算)，其次会把网站首页的所有超链接提取出来。如下图所示，首页的超链接被称为“后链”，等到下一轮抓取的时候，抓取器会继续和这些超链接的页面进行交互，拿到页面进行提炼，依次不断一层一层的抓取，这就构成了抓取环路。

百度官方公开课：网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

抓取友好性优化

1、URL规范：

任何一个资源都是通过URL来抓取的，URL相对于网站的门牌号，那么URL的规划就非常重要了。尤其是如上图所示，“待抓URL”的环境，爬虫在首页的时候，并不知道URL是什么样子。

优秀的URL的特点是主流的、简单的，竟可能不要去做一些非主流的样式，让人看起来很直观的URL。

优秀URL示例：

百度官方公开课：网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示，第一条是百度知道的链接，整个链接分成三段，第一段是网站的站点，第二段是资源类型，第三段是资源的ID。这种就是非常简单，并且爬虫看起来非常优质的URL。

如上图所示，第三条相对百度知道多了一个段，首先第一段是网站的站点，第二段是站点的一级目录，第三段是站点的二级目录，最后一段是站点的内容ID。像这种的URL也是符合标准的。

不友好的URL示例：

百度官方公开课：网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示，这种链接一看就很长很复杂，有经验的站长都看得出，这种URL包含了字符，这个URL内包含了文章的标题，导致URL偏长，一个偏长的URL相对比简单的URL是不占优势的，百度站长平台的规则有明确的说到URL不能超过256字节，个人建议URL长度控制在100字节之内，100个字符足够展现出URL的资源了。

1/4 上一页 1 2 3 4 下一页尾页

文章TAG：

百度官方公开课：网站抓取建设指南!

大家都在看

相关文章推荐