机器学习在数据管理中的作用
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-09-02
大数据管理挑战
诸如Hadoop和NoSQL数据库之类的大数据平台开始于创新的开源项目,现在正逐渐从企业内部以利基研究为重点的领域转移到占据现代数据中心的中心位置,这些大数据平台是复杂的分布式野兽,具有许多可独立缩放的活动部件,并且可以支持极高的数据吞吐量以及高度的并发工作负载;它们非常契合当今大数据世界中企业不断发展的需求。
由于这些平台在不断发展,因此它们没有像关系数据库管理系统
电子邮件服务器和数据仓库等传统的真实记录平台所认为的那样严格的策略严格性,当今大数据的数量和种类繁多,使其非常适合基于机器学习的方法,这减轻了IT团队日益增长的负担,这些负担很快将变得不可持续,这给企业带来了许多风险,可能会削弱采用NoSQL和Hadoop等较新平台的价值,这就是为什么我认为机器学习可以帮助IT团队应对数据管理的挑战,接下来让我们详细了解这些关键的运营挑战。
安全,审核和合规
从安全和审核的角度来看,这些系统的企业就绪性仍在迅速发展,以适应对严格和精细的数据访问控制,身份验证和授权的不断增长的需求,这带来了一系列挑战,数据库的几种工具,但通常认为这些工具实施和管理起来很复杂,并且具有破坏性。这可能只是产品成熟度和/或他们要解决的问题的潜在复杂性的函数,但是仍然可以理解,其次识别和保护重要的个人身份信息免受泄漏是一项挑战,因为在大数据平台上管理PII所需的生态系统尚未成熟到可以完全获得合规信心的阶段。
当今大数据的数量和种类繁多,使其非常适合基于机器学习的方法,这减轻了IT团队日益增长的负担,这些负担很快将变得不可持续
这些可能是提取,转换和加载(ETL)流程,备份作业,模型计算,推荐引擎以及其他分析工作流程,然后计算时间来运行作业(例如备份或测试/开发)以确保满足业务授权的RPO面临着挑战,鉴于混乱的性质和随时运行的各种工作负载的数量,这可能是一个极其困难的练习。
开发人员和数据科学家总是会为自己的个人需求临时复制数据,而不必考虑过程中暴露出的关键
为了缓解此问题,组织可能会禁止任何人复制生产数据,迫使开发人员和数据科学家依靠合成生成的数据,这会导致质量较差的测试和模型,因为合成数据通常不能代表生产数据,同样基于规则的系统只能缓解其中的一些问题,因为不可能在高度动态的环境中对规则中的所有内容进行编码,相反智能机器学习驱动的方法必须取代人工和基于规则的系统,以在新的大数据世界中自动执行许多数据管理任务。
机器学习在数据管理中的可能应用
对于担心安全性,至关重要的是要认识到数据量和种类的不断增长,对于管理员乃至一组管理员和数据科学家来说,解决这些挑战都是人为不可能的,幸运的是,机器学习可以提供帮助,可以采用各种机器学习和深度学习技术来完成此任务,广义上讲,机器/深度学习技术可以分为无监督学习,有监督学习或强化学习。
1、监督学习涉及从已经“标记”的数据中学习,即,预先知道每个数据点的分类或“结果”。
2、相反,当数据“未标记”时,将使用无监督学习,例如k均值聚类,这是表示数据未分类的另一种方式。
3、强化学习依靠为系统定义的一组规则或约束来确定实现目标的策略。
解决哪种问题将决定采用哪种技术
例如可以通过监视相关属性,使用诸如随机森林之类的监督学习机制来建立基线或构成系统“正常”行为的基线,然后使用基线来检测偏离基线的异常,这样的系统可以用来检测对该系统的安全威胁,这对于识别本质上发展缓慢且不会立即加密所有数据而是随时间逐渐加密的勒索软件攻击尤其重要,通过将系统负载和资源可用性指标建模为训练属性,并根据该模型确定运行某些作业的时间,随机森林(以及梯度提升树)技术也可以用于解决上述工作流调度问题。
通常在模型创建中使用的初始训练数据将不加标签,从而使监督学习技术无用
尽管无监督学习似乎很自然,但可以产生更准确模型的另一种方法包括预处理步骤,以使其可用于监督学习的方式将标签分配给未标记的数据,另一个有趣的研究领域是使用深度学习来识别,标记和掩盖数据。尽管可以使用正则表达式和静态规则来实现此目的,但使用深度学习可以学习组织中使用的特定格式,已成功用于图像识别,因此探索其用于PII合规性的另一种有趣的可能性。
大数据为组织提供了更大的机会
使其变得更加敏捷,降低成本并确保合规性,但前提是它们必须能够成功部署和扩展其大数据平台,机器学习代表了一项令人兴奋的新技术,它有望在帮助组织应对这些数据管理挑战中发挥关键作用。