var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

图形数据库的作用不仅仅在于社交媒体

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-05

我们发现企业中图形数据库的使用更加复杂,例如欺诈检测

图形数据库与标准关系数据库的不同之处在于,它不是将数据存储在表中,而是通过外键链接数据,数据存储在各个节点中,这些节点通过指定的关系进行连接,一个节点可能拥有一个产品名称,而另一个节点可能拥有一个供应商名称,它们之间的关系指定了供应商提供该产品。

 

广为人知的是图形计算,即使不是图形数据库,它们都通过在不同的人之间建立联系而生成许多潜在有用的信息

您可能认识的人功能根据共同的朋友建议可能的朋友,传统的关系数据库在生成有关实体之间关系的信息方面相当不利,每个关系查询都至少需要一个联接函数,这会迅速降低性能,因此请考虑需要进行的所有计算,其中包括了解不同实体之间的关系,那就是图数据库的权限,以检测欺诈性使用信用卡为例,欺诈检测依赖于一种称为链接分析的技术,该技术检查谁在信用卡上收取项目费用以及在何处进行这些交易,并将其与信用卡持有人的历史记录进行比较,理想情况下,欺诈检测应实时进行,因此作弊者不会从中获得太多金钱。

 

为什么性能在时间序列数据中很重要

过去的好数据可以帮助我们在当前做出更好的决策,今天存在的大多数数据是在过去十年中创建的,而从那里开始,人类数据输出只会激增,到2025年,人类数据的总收集量将达到175ZB1ZB当然是10亿兆兆字节,即1万亿千兆字节,具体取决于您喜欢哪种思维折衷的度量,虽然我们在存储和收集数据方面没有问题,但真正的诀窍在于我们如何处理数据,数据表明,企业中多达73%的数据未用于分析,这是有效捕获和处理数据的巨大机会,这就是为什么许多团队正在研究具有竞争力的产品以使数据更有用的原因。

 

特别关注捕获时序数据,这使我们能够表示和理解随时间的变化

时间序列数据可能与天气变化,机器性能变化甚至您自己体重的变化有关。但是,与每天称一次体重并将这些独立状态存储在数据库中不同,时间序列数据要求您捕获出汗,生病,进餐或使用时,体重上下的每个微小波动,浴室处理此类数据需要高性能的系统,该系统可以快速处理大量单个数据点,以将这些数据转变为决策辅助工具,由于以下原因,性能对于时序数据至关重要。

 

时间序列数据具有爆炸性

它是连接设备,物联网,自动驾驶汽车,金融服务乃至服务器场监控的核心。时间序列数据不是捕获单个数据点,而是捕获数万个数据点,但是它甚至不止于此-时序数据不仅会不断增长并且永不停止,而且还会爆发式增长,在短时间内产生大量读数,捕获有关风速的时间序列数据的气象站可能长时间记录为零,但是一旦风大,您将每秒获得数千次测量,因为测量变化很大,它需要一个高性能的系统来有效地捕获和记录它,时间序列数据无处不在,现代技术人员可以看到,有效管理数据的工具有些专门,否则对处理能力的爆炸性需求以及同时降低的可用性就成为供需问题。

 

摩尔定律的尽头在眼前

当数据继续以指数方式传播时,处理器能力的提高将放缓,我们在处理和分析所有这些数据时面临着一个大问题,而将更多的经过改进的CPU放在服务器机架上的问题将再也无法解决。硬件方面缺乏性能改进,加上公司成本猛增,也无济于事,硬件被窃听,这就是为什么现在该关注方程式的另一端了:软件解决方案是编写更精简的代码,以提高硬件效率,并从对软件进行如此有效的调整中获得性能提升。这种软件在功能上不那么依赖硬件,它为利用数据开辟了新的可能性,并且实时运行而没有任何滞后。

 

摩尔定律正接近其物理极限

因为只能将这么多的晶体管装入集成电路中-数据的大部分性能来自硬件,从而间接地使开发人员可以编写懒散的,但是如今,优化硬件的空间越来越小,芯片制造商正接近需要新的物理原理来改进当今现代处理器的时代,这意味着是时候专注于改进软件了。

 

它减少了您的云账单

无论您今天存储和处理了多少数据,明天您都只会拥有更多数据。如果要在相同的时间内处理不断增加的信息量,则需要更多的计算资源,随着需求的增加,计算资源将从一台服务器增加到两台或更多。但是,您不仅为此会向云服务支付更多费用,而且还将向数据库提供商支付额外的软件许可费用,问题变成:您实际上从每台机器中获得了多少价值?如果一个人可以处理十亿个数据点,那么您知道每增加十亿个数据点就需要一台新机器,但是如果使用性能更高的软件为每台新计算机获得1000亿个数据点,那么每台计算机的成本实际上就降低了,此外您终需要的数量更少,时间序列数据的性能是关于帮助您尽可能有效地做出决策。

 

Prev article

数据表:开发人员数据启发的时刻

Next article

数据质量解决方案魔力象限的思考

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务