Type:这里选Text选项,因为要抓取的是文本内容;
Multiple:不要勾选 Multiple 前面的小框,因为在这里要抓取的是单个元素;
保留设置:其余未提及部分保留默认设置。
(3)点击select选项后,将鼠标移到具体的元素上,元素就会变成黄色,如下图所示:
在具体元素上点击后,元素就会变成红色的,就代表选定该内容了。
(4)点击Done selecting后完成选择,再点击save selector后就可以完成关注对象知乎名字的选取了。
重复以上操作,直到选完你想爬的字段。
(5)点击红框部分可以看到采集的内容。
Data preview可以看到采集内容,edit可以对设置的内容做修改。
6、爬取数据
(1)只需要设置完所有的 Selector,就可以开始爬数据了,点击 Scrape map,
选泽scrape;:
(2)点击后就会跳到时间设置页面,如下图,由于采集的数量不大,保存默认就可以,点击 start scraping,就会跳出一个窗口,就开始正式采集了。
(3)稍等一会就可以得到采集效果,如下图:
(4)选择sitemap下的export data as csv选项就可以将采集的结果以表格的形式导出。
表格效果:
以上就是以知乎为例介绍基本的采集步骤和设置,看着虽然细节繁多,但是仔细算下来真没多少步骤,基本上10分钟就能够完全掌握采集的流程;无论是什么类型的网站,设置的基本流程都是大致一样的,有兴趣可以认真深入研究。
作者:白面书生
来源:卢松松博客,欢迎分享
文章TAG:数据 数据采集 淘宝