var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

大数据加速器如何实现更快,更具成本效益的分析

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-05-17

数据应用程序中不乏创新
可帮助企业从不断增长的数据量中获取价值。现代数据平台-数据湖,数据仓库,数据湖房屋-在很大程度上已经面临挑战,所有这些都与硬件,计算,存储和内存的指数级改进交织在一起。在本文中,我们重点介绍数据平台的创新和计算的单新如何为企业和整个世界带来了对数据加速器的需求,以满足对速度和效率的持续需求,摩尔定律(认为:每两年更小,更便宜的微芯片)几十年来一直是数据和分析创新的关键,它将更快的中央处理单元(CPU)与不断增长的数据量和用例需求结合在一起,处理器速度的可靠增长正在放缓,业务和数据团队应引起注意。尽管这些团队很少与底层服务器进行交互,但是发生了一场悄无声息的革命,影响了企业及其对速度的期望。

解决方案:加速器
要了解这一革命,值得快速浏览一下CPU的历史,无论是对于个人计算机,小型服务器还是大型数据中心,CPU的主要优势之一就是它是通用的并且可以处理几乎所有处理。无论您是在计算机上写电子邮件,在网站上服务还是在执行复杂的人工智能(AI)算法,CPU都可以处理这项工作,挑战在于,CPU的速度不再能够满足各种工作负载,高度复杂的计算和天文数据增长的需求,在某种程度上,过去十年中的许多大数据创新也反映了CPU的局限性,大多数现代大数据平台通过在网络中的许多CPU节点或计算机之间分布计算来提高性能。它们提供了这样的承诺:随着需求的增长,您可以扩展或扩展更多的节点或更快的处理器。充其量,这是一个昂贵的命题,但更现实的是性能下降,因为节点之间的通信开销导致收益递减。

CPU的增长正在放缓
但是其他类型的专用处理器可以填补空白,事实证明,尽管通用处理器可以充分处理大多数计算任务,但将工作负载与计算框架进行匹配可以显着提高性能,翻译:键入电子邮件所需的处理器功能与呈现具有高级图形的网站所需的处理器功能不同,通用CPU不会消失。未来不会摆摆到有数百个用于不同任务的不同处理器的地方。有很多替代方案,每种替代方案都针对不同类型的用例进行了优化,包括高价值用例中的图形处理单元(GPU),现场可编程门阵列和专用集成电路。

数据加速在现实世界中如何发生
机器学习(ML)是一个很好的用例,它从一开始就说明了加速的好处。ML的飞速发展取决于现代数据平台和管理海量数据集的不断增强的能力。仅处理这些数据具有巨大的计算需求。此外,机器学习模型训练和推理是高度并行的工作负载,使其成为替代处理器的理想选择,神经网络而专门设计的,开发需要大量时间和金钱,内部将这些用于诸如“照片”和“地图”之类的工具,它们为无需管理硬件编程或集成的客户提供了强大的ML解决方案。

开发了内部使用的加速器
在通用CPU的情况下,是另一端-专门为特定用途(通常是狭窄用途)设计和制造的芯片,在频谱的两端之间是现场可编程门阵列,这是另一种加速选择。提供了ASIC的许多性能优势,但是首字母缩写词“ P”的真实含义可以针对不同的应用进行编程和重新编程,通过直接在其应用程序中构建加速功能,亚马逊可能会为用户提供无缝体验,从而提供与相似的竞争优势。

图形处理单元(GPU)是另一个加速器
游戏,视频处理乃至加密货币挖掘的普及中相对无处不在,GPU的创建(并命名)是因为其具有比CPU更好地处理图形的专业能力,“通用” GPU(GPGPU)非常适合高度并行化的工作负载,并有助于深度学习的快速采用,领先的GPU提供商NVIDIA开发了RAPIDS软件库,以将数据科学应用程序与GPU连接起来。

数据加速市场在很大程度上填补了桥接数据应用程序和可以潜在改善性能的专用处理器的空白
经济性-狭窄但有价值的操作需要大量投资-仅对等少数应用有意义。尽管有些加速器会将加速器集成到自己的应用程序中,但是大多数应用程序提供商不会冒险进行复杂的编程。越来越多的独立软件供应商致力于这些编程路径,以为用户提供无缝加速。

云中的数据加速
云平台上大数据工作负载的份额不断增长,推动了加速技术的采用。在诸如AWS或Azure的公共云上,用户越来越多地可以单击几下添加GPU或FPGA实例,并根据需要添加或不添加它们,ROI的数学障碍“需要多少使用率来证明概念验证和实施的合理性”随即用即付定价已基本消失,大量数据的用户现在有机会将数据工作负载与基础架构进行匹配,这并不是说加速仅限于云部署,由于正在解决编程难题,因此在内部证明和实现专用处理器要容易得多,云可用性还可以帮助本地客户运行云概念验证,从而在进行硬件投资和接受IT时间要求以加速其数据中心之前获得更大的信心。

加速市场
可以将这种转变简单地看作是硬件的发展,专用计算填补了不断减少的CPU性能提升的空白。投资公司ARK预测,加速器例如GPU将在未来十年内成为一个价值410亿元的产业,甚至超过CPU,这在大数据分析和AI的推动下将是一个巨大的推动力,这个市场和对客户的价值同样取决于将应用程序与硬件连接所需的软件,过去有些公司已经对加速器进行了修改,但是广泛采用它取决于交钥匙解决方案,这些解决方案不需要开发人员集成硬件或更改现有的应用程序代码,尽管我们专注于基于硬件的加速,但是许多相同的软件方法也可以利用现有的CPU来实现加速。通过评估Spark等应用程序以进行GPU加速,用户还可以使用本机C ++代码加速特定的操作。

展望未来:加速的影响

的确我们不能再依赖摩尔定律了,但是通常情况是,当一扇门关闭时,另一扇门打开,创新提供了更多的功能和效率,但是只有这些创新的解决方案对业务用户是无缝的并且对他们的组织有利时,才有意义,突出大数据加速市场本质上是在性能提升的速度方面,扩展到通用CPU之外还意味着优化诸如能效和成本之类的东西,大多数企业已经了解到,如果您不注意的话,向云的迁移可能会变得非常昂贵,仪表运行时,通用CPU缓慢地处理所有工作负载。加速使您更快地到达终点,并有助于减少云支出。



Prev article

通用加性模型–在模型中留出一些摆动空间

Next article

数字孪生一瞥-彻底改变工业领域

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务