不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

2、在网页上右击鼠标,选择检查选项,或者用快捷键 Ctrl + Shift + I / F12 都打开 Web Scraper。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

3、打开后点击create sitemap选择create sitemap创建一个站点地图。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

点击create sitemap后就得到如图页面,需要填写sitemap name,就是站点名字,这点可以随便写,自己看得懂就好;还需要填写start url,就是要抓取页面的链接。填写完就点击create sitemap,就完成创建站点地图了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

具体如下图:

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

4、设置一级选择器:选定采集范围

接下来就是重中之重了。这里先介绍一下web scraper的抓取逻辑:需要设置一个一级选择器(selector),设定需要抓取的范围;在一级选择器下建立一个二级选择器(selector),设置需要抓取的元素和内容。

以抓取张佳玮关注对象为例,我们的范围就是张佳玮关注的对象,那就需要为这个范围创建一个选择器;而张佳玮关注的对象的粉丝数、文章数量等内容就是二级选择器的内容。 具体步骤如下:

(1) Add new selector 创建一级选择器Selector:

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

点击后就可以得到下图页面,所需要抓取的内容就在这个页面设置。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

id:就是对这个选择器命名,同理,自己看得懂就好,这里就叫jiawei-scrap。

Type:就是要抓取的内容的类型,比如元素element/文本text/链接link/图片image/动态加载内Element Scroll Down等,这里是多个元素就选择element。

Selector:指的就是选择所要抓取的内容,点击select就可以在页面上选择内容,这个部分在下面具体介绍。

勾选Multiple:勾选 Multiple 前面的小框,因为要选的是多个元素而不是单个元素,当勾选的时候,爬虫插件会识别页面下具有相同属性的内容;

 2/4   首页 上一页 1 2 3 4 下一页 尾页

文章TAG:数据  数据采集  淘宝  
下一篇