当前位置 > CPDA数据分析师 > 36小时数据分析行业HOT点 > 5级难度攻关集搜客-数据分析师学习日志第3篇

5级难度攻关集搜客-数据分析师学习日志第3篇

来源：数据分析师 CPDA | 时间：2018-12-06 | 作者：admin

观看视频：

（视频1）数据获取-集搜客GooSeeker技术初级篇

（视频2）数据获取-集搜客GooSeeker技术中级篇

（视频3）数据获取-集搜客GooSeeker技术高级篇

（视频4）一起动手来实操：微博、微信数据采集

这一篇完全围绕集搜客软件开展，跟爬楼梯一样，一共分了6级，难度0级，难度+1，....难度+5，看我如何征服它哈

先来个集搜客的简介，这是小编最欣赏的学习小伙伴Emily的手写版笔记。

欣赏完就开始攻关吧

案例：

采集任务：用大众点评网作为案例，给大家演示如何使用直观标注的功能采集网页数据

采集网址：//www.dianping.com/shop/6232395

采集内容：店铺名称、地址、电话

采集工具：Gooseeker数据爬虫软件

集搜客是免费的，所以小编在官网下载了最新版本

版本号：V8.6.4

这是最简单的，难度0级：小编小试身手就测试成功了。

不过学习过程中有很多小伙伴问，数据采集下来存哪了，喏，左上角，改变存储路径就可以了，假如一不小心给忘了，点击“存储路径”也是可以看到默认的路径的，其他不多说了，反正技能已经get到了！

难度+1：获取列表数据

采集任务：用大众点评网作为案例，给大家演示如何使用直观标注的功能采集列表数据

采集网址：//www.dianping.com/beijing/ch10/g110

采集内容：列表中每一个店铺的名称、人均消费、地理位置、菜系、口味、环境和服务等

采集工具：GooSeeker数据爬虫软件

也顺利测试成功！！！！不过与上面不同的是要定义不同的结构体，把每一个结构体映射到采集的内容当中，就是下图：

难度+2：贴吧评论数据爬取

CPDA百度贴吧数据：https://tieba.baidu.com/f?ie=utf-8&kw=CPDA&fr=search

测试成功，但是小编遇到了个问题：

贴吧的图片数据无法爬取下来，准备6月14号晚上问老师，有了答案小编来补充经验。

难度+3：爬取翻页数据

采集任务：用大众点评网作为案例，给大家演示如何采集层级网页数据

采集网址：//www.dianping.com/search/keyword/2/10_%E8%81%9A%E9%A4%90/o2

采集内容：采集每一个店铺的基本信息，并实现自动翻页采集&网页层级页面采集

采集工具：GooSeeker数据爬虫软件

重复前面操作，因为版本不同，小编与老师的操作出现了不一致，下面是我的版本操作截图，应该有跟我一样的同学吧....

难度+4：详细页面和店铺内容进行关联

不过在这小编也遇到了小问题：这里有图片挡住区域无法清除

难度+5 微信微博数据采集

注意版本不同位置有变化，我的版本是从首页进入的，这不正是集搜客第二大特点所说的嘛…

微博采集就不描述了，自己去动手试试吧！

集搜客软件下载：

https://pan.baidu.com/s/1FzAw_iPGFvHbMly-JZQEYg 密码: ery6

也可从官网下载：

https://www.gooseeker.com/pro/product.html

上一篇：动手小干货-数据分析师学习日志第2篇

下一篇：水晶易表实战-数据分析师学习日志第4篇

技术支持：北京中盈达科技有限责任公司

京ICP备15052412号-4 京公网安备 11010502034401号

联系电话：400-050-6600 联系方式：北京市朝阳区朝外SOHO C座9层

数据分析师培训 | 北京广州上海深圳佛山贵州贵阳武汉郑州苏州杭州合肥济南西安石家庄太原长春沈阳青岛哈尔滨厦门福州大连呼和浩特长沙重庆海口沈阳南昌南宁乌鲁木齐天津银川南京昆明东莞宁波成都南阳洛阳临沂烟台兰州

5级难度攻关集搜客-数据分析师学习日志第3篇

数据分析师认证考试

CPDA数据分析师考试

CDA数据分析员考试

数据分析师（CPDA）开课信息