当前位置 > CPDA数据分析师 > “数”业专攻 > 如果数据不堪重负,要学会如何控制住

如果数据不堪重负,要学会如何控制住

来源:数据分析师 CPDA | 时间:2018-12-26 | 作者:admin

数据分析·· - 如果数据不堪重负,要学会如何控制住

 

互联网时代,大企业和小企业都会产生大量的大数据。大数据只会越变越大,2017年,Gardner估计,有近90亿部设备接入互联网,到2020年,这个数字将超过200亿部,并且所有这些设备都在提供无穷无尽的数据。

 

事实上,公司在收集数据方面已经做得非常好了,但是并没有有效的使用数据。据估计,公司收集的60%到95%的数据都是在收集灰尘。但考虑到今天的分析可以收集数据创造奇迹,提供有关如何增加销售、新产品部署、如何削减行政或制造成本等等,这似乎很奇怪,企业会让数据闲置,特别是当数据可以使企业更有利可图的时候。获得数据控制应该是任何企业的关键业务策略。那么,为什么企业不能更好地控制自己的数据呢?

 

一个原因是有太多的数据需要处理。平均1GB数据表示大约64,782个Word页面,还有很多很多GB的数据需要搜索。全世界每天产生超过2.5万亿字节的数据,即使是中型企业,如今生产的数据远远超过上个世纪最大的企业。对于那些数字,仅仅构建数据库中的数据就已成为一个主要问题。

 

即使数据是结构化的,元数据问题也会令人头疼。当数据在各种数据库或容器中被不同地分类 - 如,当某些出生日期被分类为欧洲风格(年/月/日)和一些美国风格(日/月/年)时,搜索这些数据就成了一个主要的挑战。这是因为,以一种格式捕获数据的搜索程序不会捕获以另一种格式记录的数据。名称(第一个/最后一个/最后一行/第一行/第一页/中间/最后一页),地址(5位数邮政编号与9位数字邮编)等等也是如此。

 

为了从数据中获益,组织通常使用商业智能(BI)团队来处理数据的搜索和查询。BI团队组织的专家在哪里可以找到数据,如何编写算法来找到它,以及如何结构在一份报告中提供有用的见解。但BI团队也是人类 - 而且也会被大量数据所淹没。此外,源数据的问题已经变得非常严重,因为数据位于数十个不同的地方(数据库、Twitter feed、日志、Sales force报告等等) ,并且完全了解一个组织拥有的数据,是一项巨大的、几乎不可能完成的任务。。

 

最重要的是,企业现在可能会因为未能控制自己的数据而受到惩罚;如: GDPR规则要求公司(即使是那些不在欧洲的公司)立即删除他们对任何欧洲公民或实体的个人信息。如果没有这样做,或者在监管机构要求时证明他们可以这样做,可能会导致组织的高额罚款。考虑到BI团队必须手工完成大部分的检索工作,企业在失去有价值的见解和发现自己面临欧洲税务人员的风险方面的脆弱性是显著的

 

最重要的是,公司正在失去一个宝贵的信息宝库,这些信息可以用来改进他们的商业模式、客户基础和在行业中的地位。世界上有很多数据,每一个数据块都意味着更多的钱。更多的效率,更多的组织效益。但是为了实现这些好处,企业需要解决它们“痛点”的解决方案。具体来说,就是处理它们需要处理的大量数据,以便获得它们所寻求的可操作的见解,以及克服元数据问题所带来的挑战,

 

虽然有一系列解决方案可用于增强BI团队的工作,但企业可能会在自动数据搜索系统中取得最大成功,这些系统具有旨在处理这两个问题的算法。通过正确的解决方案,企业将发现他们可以控制自己的数据并实现其中的优势。