var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

合成数据机器学习的钻石

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-09

共有三种生成合成数据的常用方法:增强采样,生成对抗网络和基于代理的模拟
在诸如罕见疾病检测或欺诈检测之类的问题中,常见的挑战之一是代表您要搜索的目标的实例的稀有性。数据中的类不平衡限制了机器学习模型得到准确训练的能力。在培训期间,如果没有足够的机会接触少数群体的实例,则模型很难在评估生产数据时识别实例。在欺诈情况下,如果未对模型进行足够的欺诈实例训练,则将其部署到生产中后会将所有内容归类为非欺诈。

为了平衡您的数据一种选择是对少数类进行过度抽样
或者对多数情况进行欠抽样以创建数据的综合分布,此方法的确确保了模型对每个数据类别具有相等的平衡,统计专业人员长期以来一直使用这种方法来解决班级失衡问题,另一种方法是利用k -means或另一种广义聚类方法在您的少数类代表的数据点周围创建边界,定义此边界后,您将拥有一个空间,所有代表您的少数群体的数据点都将存在。定义该空间后,您可以创建一组合成数据点,这些数据点具有与真实数据相同的统计特征。然后,这些数据点可用于扩充代表您的少数群体的数据。

合成数据创建的下一种方法涉及计算机模型
该模型创建一组无法与实际数据区分开的数据点,想象一下两台计算机彼此对战,在这个游戏中,台计算机选择一个真实数据点或一个虚构数据点,并将其传递给第二台计算机。第二台计算机的目标是猜测台计算机是否通过了真实数据点或合成数据点。如果第二台计算机正确区分两者,则台计算机将使用此信息来改进其下一次尝试,并从该过程中学习,随着游戏的进行,台计算机非常擅长创建合成数据,以至于第二台计算机无法区分实际数据和计算机生成的数据。

该计算机生成的数据将用作其他机器学习模型的输入
使用这种方法已经在人工智能方面取得了许多进步,这些进步包括与真实事物没有区别的虚构视频,图像和艺术作品,所有这些都是通过从真实示例中学习而构建的,一种情况是开发用于测试自动驾驶算法的用例,通过培训,公司可以生成数百万种方案,并确定其算法是否已准备就绪,可以在现实世界中安全运行,创建合成数据的终方法是使用模拟过程,在该过程中开发代理以代表彼此交互的现实世界实体,并观察和测量这些交互以生成数据。

就像现代游戏引擎允许创建代表现实世界中的物理学和社会学并可以像他们还活着一样进行交互的代理一样
这些相同的技术也被用于合成数据的创建,以“模拟人生”游戏为例,该游戏允许人们在虚拟世界中建立生活并通过日常活动与计算机进行交互。随着这些代理变得更加智能化,体现了现实世界的特征,它们可以进行虚拟组合,并且它们的交互结果将成为您的综合数据,一个现实的例子就是核反应的建模。在科学家建造实际的核设施并引发亚原子反应以观察产生的能量以及如何管理核安全之前,他们会创造出能代表元素粒子及其相关的化学和物理特性的物质,通过建模和仿真,他们可以观察化学反应内部发生的事情以及粒子与其外部环境之间发生的事情。代表这些反应所需的数万亿次计算,它们利用了世界上快的超级计算机来运行这些模型,尽管这些超级计算机是一项巨大的前期投资,但从长远来看,所得数据可以节省它们,并使其能够安全地进行能源创新。

在企业中这些代理商可以代表与实体商店布局或公司电子商务站点进行交互的客户
使用智能代理执行的这些虚拟模拟生成的数据对公司而言非常有价值,它们可以遍历数百万个排列,从而创建强大的数据集来驱动其机器学习模型,尽管综合数据具有巨大潜力,可以提供您的机器学习模型所需的一切,但请注意,数据确实存在一定风险。人工数据可以导致模型中的人工结果,这种风险反过来可能导致错误的决策。统计测试和监督可以帮助减少这种可能性。

使用这些创建合成数据的方法中的每一种
目标都是从流程中获得具有高度价值,经过精炼和标记的数据,然后将这些数据用于驱动人工智能项目,就像实验室种植的钻石从结构上的复制品到在外观上与真实的钻石几乎相同一样,我们将继续看到合成数据创建方面的进步,这样合成数据不仅看起来与您的真实数据相似,而且会不断发展是真实世界的高度精确表示,并且将在机器学习过程中与真实数据完全互换。

你从这里去哪里?在您的企业中寻找实例
其中人工智能模型可以对您的企业进行变革,但是由于数据的稀缺性或获取的固有成本,您缺乏完整实施数据的数据,评估其中一种方法是否可以为您提供实现该愿望的基础。


Prev article

如何通过推荐系统实现业务增长

Next article

数据分析挖掘数字社交媒体内容

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务