不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

来源：整理编辑：派代电商 2022-08-15 21:07:55

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

2、在网页上右击鼠标，选择检查选项，或者用快捷键 Ctrl + Shift + I / F12 都打开 Web Scraper。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

3、打开后点击create sitemap选择create sitemap创建一个站点地图。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

点击create sitemap后就得到如图页面，需要填写sitemap name，就是站点名字，这点可以随便写，自己看得懂就好;还需要填写start url，就是要抓取页面的链接。填写完就点击create sitemap，就完成创建站点地图了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

具体如下图：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

4、设置一级选择器：选定采集范围

接下来就是重中之重了。这里先介绍一下web scraper的抓取逻辑：需要设置一个一级选择器(selector)，设定需要抓取的范围;在一级选择器下建立一个二级选择器(selector)，设置需要抓取的元素和内容。

以抓取张佳玮关注对象为例，我们的范围就是张佳玮关注的对象，那就需要为这个范围创建一个选择器;而张佳玮关注的对象的粉丝数、文章数量等内容就是二级选择器的内容。具体步骤如下：

(1) Add new selector 创建一级选择器Selector：

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

点击后就可以得到下图页面，所需要抓取的内容就在这个页面设置。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

id：就是对这个选择器命名，同理，自己看得懂就好，这里就叫jiawei-scrap。

Type：就是要抓取的内容的类型，比如元素element/文本text/链接link/图片image/动态加载内Element Scroll Down等，这里是多个元素就选择element。

Selector：指的就是选择所要抓取的内容，点击select就可以在页面上选择内容，这个部分在下面具体介绍。

勾选Multiple：勾选 Multiple 前面的小框，因为要选的是多个元素而不是单个元素，当勾选的时候，爬虫插件会识别页面下具有相同属性的内容;

2/4 首页上一页 1 2 3 4 下一页尾页

文章TAG：数据数据采集淘宝

下一篇

大家都在看

相关文章推荐