当前位置 > CPDA数据分析师 > “数”业专攻 > 数据分析三两说-如何学习数据分析

数据分析三两说-如何学习数据分析

来源:数据分析师 CPDA | 时间:2018-12-04 | 作者:admin

“数据分析”作为时下流行的词汇和技术,相信很多人都不会陌生,想要学习和已经开始学习数据分析的人也越来越多。但是,遇到不少相关人士后,我发现大家对“学习数据分析”的理解存在着很大的偏差。

 

那么,应该怎么学习数据分析呢?

 

针对不同的受众,这个问题的答案也五花八门。从最基础的理论开始一步一个脚印来学,从实际中常用的数据分析算法或软件来学,还是从行业领域的数据分析应用中学习???

 

对我们来说似乎很难抉择。虽说这几种学习方向都是绝对可行的,而且无论从哪个方向出发似乎总能掌握数据分析能力,然而事实却没这么简单,我们常常信心满满、干劲十足地出发,去学理论、学技术或者学应用,也常常无可奈何地草草放弃。

 

这些,并不是因为我们不求上进、不够努力,甚至有时候是因为我们太想努力了,太想真正提高自己了,但是无法看清学习的原因、动力、过程还有结果,甚至学习的意义。

 

“只要还在学习,人生就有无穷的可能。”

 

这句话的信服度还是低了点,所以,在学习数据分析的过程中,被枯燥的内容和越来越多的不清楚包围着,我们需要更加有效更加轻松的学习方法。

 

“为什么学习数据分析?”,不知道大家有没有仔细地考虑过这个问题。数据分析的目的是什么,大家的理解几乎一致,为了解决实际问题,为了提供决策依据等等之类的。然而学习数据分析的目的,每个人肯定都是不大相同的,有人为了提升自己,有人单纯因为好奇,但是,大部分人的目的不外乎借此有一份薪资不错且能驾驭的工作。

 

我常义正言辞地讲,我们不能为了数据分析而进行数据分析,更不能为了学数据分析而学习。

 

在这里我还是这样强调,我们不能为了学数据分析而学习,无论让你学习的原因是什么,都不能仅以此作为学习的动力。

 

学习的动力应该更具体一些,更实际一些,如学数据分析的目的,展现、预测、决策还是其他应用等等之类的。学习数据分析的目的,因人而异,但是也离不了“应用”,除非是想只搞理论研究的。

 

过年那段时间,因为一些个人的原因和比较无聊,我对“Cosplay圈(简称C圈)脱单的情况”比较感兴趣,想要试着研究一下“在C圈,一个人是否脱单可能跟哪些因素有关”。

 

提出这个研究内容后,我想了很多,也查了一些相关的资料,首先主观上选择了一些可能的变量,年龄、性别、星座、颜值、薪资、学历、爱好、性格等等,共计30个问题(由于C圈低龄化比较严重和颜值的主观判断不够合理,薪资、学历、颜值等因素实际上优势偏差,但因为比较有趣所以也作为研究变量)。

 

收集数据之前,作为一个熟悉各种算法的理论研究者,我是这么认为的——首先,这个问题看着像是要用分类算法,而且想要看自变量对因变量的影响程度,因此用逻辑回归看来是比较合适的。

 

微信图片 20181204143544 - 数据分析三两说-如何学习数据分析

 

但是收集数据之后,我发现,逻辑回归真的不行,拟合度实在太低了。所以直接看了下数据特征,举个例子,年龄和感情状态的交叉分析图如下:

 

微信图片 20181204143549 - 数据分析三两说-如何学习数据分析

 

似乎很难看出来什么眉目,那我们再把单身和非单身的分开列出各年龄段的脱单率看看是否脱单和年龄有什么关系,整理后的数据如下:

 

微信图片 20181204143554 - 数据分析三两说-如何学习数据分析

 

那么问题来了,我的研究目的是“在C圈,一个人是否脱单可能跟哪些因素有关”(其实也想知道具体是怎么影响的),而到这里其实大致就能看出来年龄跟是否脱单的关系了,可能过了30岁我的脱单率会提高一些OTZ。(其他因素用同样的方法也做了相应研究,结论还是很有趣的,这里不再过多说明。)

 

举这个简单的案例,并不是要说数据分析就是这样,数据分析应该这么来之类的,而是想让大家看的数据分析的有趣之处,并且,避免数据分析算法先入为主,一切从我们的研究目的出发,得到我们的研究目的为止。在这个过程中,我们可以借助的辅助工具很多很多,什么软件啊算法啊图形之类的,但需要借助什么,怎么借助也是需要由我们的研究目标支撑的。

 

数据分析是一门多学科、多领域的交叉学问,涉及到的东西非常多。但是具体的到应用,一个切实的应用需要用到的知识并不多,但要有完整的思维和清晰的目标。很多人在学习数据分析的过程中都会有“为什么这里要这么用?为什么那里要那么做?”这种问题,为防止盲目套用,我们必须时刻考虑想要解决的问题和想要达到的目的,那么不管是在获取数据、清洗数据还是选择模型的过程中,我们都会更加清晰明确、游刃有余,而且能够及时调整数据分析过程。

 

最后,我非常赞成在生活学习中发现并应用数据分析,但绝不可滥用,在已有的条理化工作中强行引入数据分析甚至可以说是一种灾难。比如客户的数据体量非常大,如果想要知道客户的某种行为与什么因素有关,收集客户数据并进行整理、拟合等,这种做法常常是不可取的,业务方面的问题引起的客户行为,常常并不需要直接研究客户行为。

 

因此,学习数据分析要注意培养思维和意识,创新地提出确实能实际应用的方向,绝对不能滥用数据分析。无意义的数据分析不仅是浪费,还是思维的误导,是在给你通往数据分析师的道路挖坑。

 

希望大家能结合实际需求来系统地学习数据分析,无论以何种具体的方式,只要思维和习惯是对的,走向数据分析师的道路就是对的。