百度官方公开课:网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示,这段URL包含统计参数,可能会导致重复抓取,浪费站点权益,所以竟可能不使用参数,如果一定要使用参数,那么也可以保留必要参数,参数字符竟可能使用常规的连接符,比如“?”、“&”,避免非主流连接符。

2、合理发现链路:

爬虫是从首页开始一层一层抓取的,所以就需要做好首页与资源页的URL关系。这样爬虫抓取相对而言比较省力。

百度官方公开课:网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示,从首页到具体内容的超链路径关系叫做发现链路,目前大多数移动站没有太注意发现链路的关系,所以导致爬虫无法抓取到内容页。

百度官方公开课:网站抓取建设指南!

编辑搜图请点击输入图片描述(最多18字)

如上图所示,这两个站点是移动网站常见的建站方式,从发现链路的角度来讲,这两类站点是不友好。

Feed流推荐:大多数做feed流的站点后台是有非常多的数据,用户不断的刷会有新的内容出现,但你刷新的次数再多,可能也只能刷到1%左右的内容,而爬虫相当于一个用户,爬虫不可能做到以这种方式将网站所有的内容都爬取到,所以就会导致一些页面爬虫不到,即使你有100万的内容,可能只能抓取到1-2万。

仅有搜索入口:如上图所示,首页只有一个搜索框,用户需要输入关键词,才能找到对应的内容,但爬虫不可能做到输入关键词然后再去爬取,所以爬虫只能爬取到首页后,就没有后链了,自然抓取和收录就会不理想。

解决方案:索引页下的内容按发布时间逆序排序的,这样做有一个好处,搜索引擎可以通过索引页即使的抓取到你网站最新的资源,另外新发布的资源要实时在索引页同步,很多纯静态的网页,内容更新了,但是首页(索引页)却没有出来,这样会导致搜索引擎通过索引页无法即使的抓取到最新的资源,第三个点是后链(最新文章)的URL需要直接在源码在露出,方便搜索引擎抓取,最后就是索引页不是越多越好,有少数优质的索引页就足够了,比如长城号,基本上只利用首页来做索引页。

 2/4   首页 上一页 1 2 3 4 下一页 尾页

文章TAG:
下一篇