怎样创建平衡的数据餐
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-05-19
机器学习不是黑魔法
一个简单的定义是将学习算法应用于数据以发现输入的有用方面,但是此过程显然有两个部分–算法本身以及正在处理和输入的数据,这些算法至关重要,不断进行调整和改进会对解决方案的成功产生重大影响,这些只是对数据的数学实验,关键位是数据本身,很简单这些算法无法在数据量不足的情况下很好地工作,并且数据不足会导致系统营养不良-终,系统渴望更多,随着消耗更多数据,可以对系统进行更全面的培训,并且结果更强大,毫无疑问,非常需要大量数据来为系统提供健康的帮助,以帮助配置结果。至关重要的是所收集的数据代表了您打算执行的任务。
在语音识别中,这意味着您可能对以下任何或所有属性感兴趣:
1、言语
2、正式演讲/非正式演讲
3、准备的演讲/未准备的演讲
4、训练有素的发言人
5、演讲者/对话
6、一般演讲/特定演讲
7、口音/方言
8、环境
9、嘈杂/安静
10、专业录音/业余录音
11、广播/电话
12、受控/不受控制
实际上,所有这些属性都会以的准确性影响执行语音识别所需任务的能力。因此,勾选所有框所需要的数据是不同的,并且涉及不同程度的获取难度。请记住,不仅需要音频,还需要准确的成绩单才能进行培训。这可能意味着人类将需要听取大多数数据来转录或验证数据,这可能会带来安全问题。
自动语音识别(ASR)系统以两种模式运行-训练和运行:
训练
培训很可能由提供服务的AI / ML公司进行管理,这意味着公司需要访问大量相关数据。在某些情况下,无论如何在公共领域都可以轻松获得这些内容-例如,已经在电视或广播中播放过的内容,因此没有相关的隐私问题。但是,这种内容无法帮助使用ASR技术的其他许多情况-例如电话转录,它具有许多不同的翻译特性。获得此类数据可以与数据所有权,隐私和使用限制的合同捆绑在一起。
操作
在实际使用中,无需收集音频-您只需使用先前已训练的模型即可。但是明显的诱惑是捕获操作数据并使用它,如上所述这是挑战的起点–数据所有权。许多云解决方案提供商都希望公开使用数据,因为它可以对所需的用例进行持续改进。数据所有权成为关键,面临的挑战是如何构建出色的模型,而这些模型在任何情况下都可以很好地工作,而不捕获私有数据。必须在质量和安全性之间取得平衡。这种折衷在许多计算机系统中都会发生,但是可以理解的是,涉及人们声音的数据经常会引起很多关注。
寻找解决方案
为了终满足ASR系统的需要,只需提供足够的数据来执行培训,就可以构建良好的系统。公司可以选择训练自己的模型,从而使他们能够保持数据所有权。这通常可能需要复杂的专业服务协议,需要大量的时间投入,但是可以很快以合理的成本提供解决方案,机器学习算法处于不断发展的状态,现在可以使用允许使用较小数据集的技术来偏置已经在大数据上训练的系统的技术。在某些情况下,少量数据可以实现“足够好”的准确性,数据获取的总体问题并未消除-但有时可以提供解决方案的数据更少。
通过实现更好的算法调整以及数据的筛选和选择来找到平衡的数据结构,可以获得结果-无需收集所有已说过的内容。可能需要更多的努力才能达到平衡该行业必须继续寻求使该技术更好地工作的方法,而又不会损害人们的隐。