来源:数据分析师 CPDA | 时间:2018-12-06 | 作者:admin
观看视频:
(视频1)数据获取-集搜客GooSeeker技术初级篇 (视频2)数据获取-集搜客GooSeeker技术中级篇 (视频3)数据获取-集搜客GooSeeker技术高级篇 (视频4) 一起动手来实操:微博、微信数据采集 |
这一篇完全围绕集搜客软件开展,跟爬楼梯一样,一共分了6级,难度0级,难度+1,....难度+5,看我如何征服它哈
先来个集搜客的简介,这是小编最欣赏的学习小伙伴Emily的手写版笔记。
欣赏完就开始攻关吧
案例: 采集任务:用大众点评网作为案例,给大家演示如何使用直观标注的功能采集网页数据 采集网址://www.dianping.com/shop/6232395 采集内容:店铺名称、地址、电话 采集工具:Gooseeker数据爬虫软件 集搜客是免费的,所以小编在官网下载了最新版本 版本号:V8.6.4 |
这是最简单的,难度0级:小编小试身手就测试成功了。
不过学习过程中有很多小伙伴问,数据采集下来存哪了,喏,左上角,改变存储路径就可以了,假如一不小心给忘了,点击“存储路径”也是可以看到默认的路径的,其他不多说了,反正技能已经get到了!
难度+1:获取列表数据 采集任务:用大众点评网作为案例,给大家演示如何使用直观标注的功能采集列表数据 采集网址://www.dianping.com/beijing/ch10/g110 采集内容:列表中每一个店铺的名称、人均消费、地理位置、菜系、口味、环境和服务等 采集工具:GooSeeker数据爬虫软件 |
也顺利测试成功!!!!不过与上面不同的是要定义不同的结构体,把每一个结构体映射到采集的内容当中,就是下图:
难度+2:贴吧评论数据爬取 CPDA百度贴吧数据:https://tieba.baidu.com/f?ie=utf-8&kw=CPDA&fr=search |
测试成功,但是小编遇到了个问题:
贴吧的图片数据无法爬取下来,准备6月14号晚上问老师,有了答案小编来补充经验。
难度+3:爬取翻页数据 采集任务:用大众点评网作为案例,给大家演示如何采集层级网页数据 采集网址://www.dianping.com/search/keyword/2/10_%E8%81%9A%E9%A4%90/o2 采集内容:采集每一个店铺的基本信息,并实现自动翻页采集&网页层级页面采集 采集工具:GooSeeker数据爬虫软件 |
重复前面操作,因为版本不同,小编与老师的操作出现了不一致,下面是我的版本操作截图,应该有跟我一样的同学吧....
难度+4:详细页面和店铺内容进行关联 |
不过在这小编也遇到了小问题:这里有图片挡住区域无法清除
难度+5 微信微博数据采集 |
注意版本不同位置有变化,我的版本是从首页进入的,这不正是集搜客第二大特点所说的嘛…
微博采集就不描述了,自己去动手试试吧!
集搜客软件下载:
https://pan.baidu.com/s/1FzAw_iPGFvHbMly-JZQEYg 密码: ery6
也可从官网下载:
https://www.gooseeker.com/pro/product.html