Type:这里选Text选项,因为要抓取的是文本内容;

Multiple:不要勾选 Multiple 前面的小框,因为在这里要抓取的是单个元素;

保留设置:其余未提及部分保留默认设置。

(3)点击select选项后,将鼠标移到具体的元素上,元素就会变成黄色,如下图所示:

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

在具体元素上点击后,元素就会变成红色的,就代表选定该内容了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

(4)点击Done selecting后完成选择,再点击save selector后就可以完成关注对象知乎名字的选取了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

重复以上操作,直到选完你想爬的字段。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

(5)点击红框部分可以看到采集的内容。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

Data preview可以看到采集内容,edit可以对设置的内容做修改。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

6、爬取数据

(1)只需要设置完所有的 Selector,就可以开始爬数据了,点击 Scrape map,

选泽scrape;:

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

(2)点击后就会跳到时间设置页面,如下图,由于采集的数量不大,保存默认就可以,点击 start scraping,就会跳出一个窗口,就开始正式采集了。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

(3)稍等一会就可以得到采集效果,如下图:

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

(4)选择sitemap下的export data as csv选项就可以将采集的结果以表格的形式导出。

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

表格效果:

不用代码10分钟就能学会微博知乎豆瓣淘宝数据采集

以上就是以知乎为例介绍基本的采集步骤和设置,看着虽然细节繁多,但是仔细算下来真没多少步骤,基本上10分钟就能够完全掌握采集的流程;无论是什么类型的网站,设置的基本流程都是大致一样的,有兴趣可以认真深入研究。

作者:白面书生

来源:卢松松博客,欢迎分享

 4/4   首页 上一页 2 3 4 下一页

文章TAG:数据  数据采集  淘宝  
下一篇