var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

偏向数据可能破坏您的ML模型的三种方式

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-09

你经常会听到,该算法偏向,或机器学习算法是偏见

尽管可能是正确的,并且算法中存在偏差,但是您在偏差中遇到的大多数问题都与数据有关,而不是模型或算法,机器学习中的三种基于数据的偏见类型是数据科学家应该担心的:

 

1.样本偏差

当一个人的训练数据的分布不能反映出机器学习模型将在其上运行的实际环境时,就会出现样本偏差,使用训练无人驾驶汽车的机器学习模型的训练作为样本偏差的示例,如果您试图制造自动驾驶汽车,并且希望它在白天和黑夜的任何时候都可以驾驶,而您只是基于日光视频来构建训练数据,那么这就是一个偏见,在您的数据中帮助建立算法训练数据的人员可以完全正确,并且没有偏见,但是数据仍然有偏差,因为您没有包含任何夜间示例。这是白天的偏见。

 

数据科学家的工作是确保所构建的样本与要部署的环境相匹配,要做好这一点,需要花费很多时间,我们利用建立大量数据集的经验与客户合作,以帮助确定这种样本偏差的潜在来源。

 

2.偏见或定型偏见

即使数据科学家获得了很好的代表性数据样本来训练她的模型,也可能会被杂草中的第二种偏见所困扰,这是偏见或成见,这个偏差可能很难解释,但是并不能程度地减少其在预测模型中产生不希望的失真的可能性,为了说明这种偏见,马丁使用了机器学习模型的真实示例,该模型旨在区分图片中的男性和女性,当训练数据包含的厨房里女人的图片比厨房里男人的图片多,或者男人写计算机代码的图片比女人写计算机代码的图片多,则训练算法以对参与这些活动的人的性别做出错误的推断。

 

这不是因为您对数据采样错误或获取了不正确的数据子集

只是可以解释的因果结论,”马丁说。“这表明,当您建立机器学习模型时,它只是一个数学模型,表明您要分组的事物有什么相似之处,而要区分的事物有什么异同之处。

 

数据科学家必须控制这种类型的偏差

有多种方法可以做到这一点,无论是在项目的前端还是在后端,数据科学家可以选择对厨房中女性照片的数量进行采样不足,或者对厨房中男性的数量进行过度采样,您还可以通过在数据中创建其他功能或使用辅助[过滤器]来控制它,有很多方法可以控制输入数据,或对输出进行后处理。您使用哪种技术可能同样有效,但诀窍在于要理解样本的分布反映出输出中不需要的东西。

 

3.系统性价值扭曲

数据偏差的另一个来源是系统值失真,当设备进行测量或观察时出现问题时,通常会发生这种情况,这种类型的偏见可能会使机器学习结果偏向特定方向,想象一下如果训练数据的相机具有某种可以过滤颜色的属性,但是您在环境中可能拥有的其他摄像机……更加准确,因此如果您的测量设备对配色方案造成系统性失真,则可能会导致数据偏差,从而影响输出。

 

如果问题是数据收集设备普遍缺乏精度,并且数据中存在大量噪声

那么随着时间的流逝,它可能会逐渐消失,但是如果测量值始终始终在一个方向上偏斜,那么它可能会对用于训练模型的数据造成严重破坏,并终产生不良结果。

 

解决数据偏差偏差通常来自数据本身的选择,而不是标签数据上的错误

数据科学家必须格外小心地处理这些真实世界的数据集,以确保偏差不会使机器学习模型的结果产生偏差,我们解决偏见的方式是通过查看数据并了解算法的部署方式以及目标环境是什么,并在查看环境和我们的数据特征之间进行匹配可能会贴标签,这不是一件容易的事,也不是他们在学校教的课,相反这是数据科学家必须从经验中学到的东西,这可以通过在大学中处理现实世界中的数据问题来实现,也可以通过在职学习来实现。

 

认识到并适应这三种类型的数据偏差是数据科学家和机器学习从业人员在拥有一定的实际经验之前很难解决的问题

这是因为学校通常只教学生关于模型和数学的偏见,而不是教数据本身可能存在的偏见,当您参加机器学习课程或在学校里次学习它时,您会发现机器学习中的偏见是算法的一个属性,它与数学适合或不适应数学的紧密程度有关模型,获得学位的目的是学习技能,然后找到实践经验至关重要。”

 

即使是有经验的数据科学家,有偏见的数据也会咬人

阻止偏见数据的方法是不断保持警惕,您可以意识到这些类型的偏差,但不一定知道维度,表征数据的多少才能涵盖与环境相关的整个范围经验很关键,但这还不够,这确实需要一些经验,并且需要对领域的直觉和洞察力,但是这是一个移动的目标,生产环境通常是真实世界,很少保持不变,您始终可以错过某些内容-即使是领域专家也偶尔会丢失某些内容并获得令人惊讶的结果。

 

这就是为什么对数据科学采取迭代方法,始终测试一个人的模型并终让人员参与其中如此重要的原因

 

您应该始终使用不同类型的数据继续处理它们,并观察它们的行为方式,而且您应该在生产中观察它们,并有一个异常处理块,如果您对结果的信心不足或是过去未曾解决过的新领域,则可以将其发送给人类决策者。

 

Prev article

随着数据科学的发展,它伴随着统计

Next article

不要成为大数据窥探者

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务