当前位置 > CPDA数据分析师 > “数”业专攻 > 在大数据时代,你需要了解这些关于机器学习的事儿

在大数据时代,你需要了解这些关于机器学习的事儿

来源:数据分析师 CPDA | 时间:2019-09-05 | 作者:admin

在大数据时代 - 在大数据时代,你需要了解这些关于机器学习的事儿

 

在机器人技术、智能家电、智能零售店、自动驾驶汽车技术等的推动下,我们正步入一个前卫的时代。机器学习是所有这些新时代技术进步的前沿。在未来的时间里,具有与人类智能相当甚至超过人类智能的自动化机器的发展。机器学习无疑是下一个“大”事件。而且,人们相信,未来的大多数技术都将与之挂钩。

 

为什么机器学习很重要?

机器学习非常重要,因为它有助于预测人类无法预测的行为和模式。机器学习有无数非常有用的实际应用。通过机器学习,可以管理以前令人困惑的场景。在理解了具有高效泛化能力的机器学习模型后,可以据此做出重要决策。机器学习使个人能够基于许多场景做出决策。显然,不能编写能够管理所有新场景的代码。

 

人工智能能够执行各种需要学习和判断的活动。从自动驾驶汽车、投资银行、许多医疗相关功能和招聘功能,人工智能已经被用于完成不同领域的各种任务。

 

在大数据时代2 - 在大数据时代,你需要了解这些关于机器学习的事儿

 

机器学习的6个革命性教训

机器学习算法能够通过简单地从场景中归纳出执行必要任务的方法。这是更切实可行和成本效益,然而,手工编程不是那么有效和可行的成本。“可用数据”数量的增加肯定也会导致更多与所捕获数据相关的问题。因此,机器学习是未来的事情,因为它将广泛应用于计算机和其他领域。尽管如此,开发有效的机器学习应用程序需要大量的“黑魔法”,这在手册中并不容易找到。

 

以下是关于机器学习最有价值的6条经验:

  1. 概括是核心

机器学习最基本的特点之一是,算法必须从训练的数据推广到该领域所有不可见场景的完整领域,以便在使用模型时做出正确的推断。这个一般化的过程需要我们用来训练模型的数据有一个体面和可靠的解释样本映射我们希望算法学习。质量越好,代表性越高,模型就越容易理解从输入到输出的未知和基本的“真实”映射。泛化是指从精确到宽泛的过程。

 

机器学习算法是从历史场景中自动简化的技术。他们有能力对更多的数据和更快的速度进行概括。

 

机器学习初学者普遍犯的最普遍的错误是对训练数据进行测试,直到有了成功的印象。如果在新数据上尝试所选的分类器,通常不会比随机猜测更好。所以,如果你搭载某人去开发一个分类器,一定要随身携带一些数据。同时,试着测试他们给你的分类器。

 

  1. 学习=表示+评估+优化

ML算法分为三个部分;表示、评估和优化。

 

表示:需要将数据注入到适当的算法形式中。对于文本分类,可以从你的全文输入中提取特征,并将其塑造成一个单词包表示形式。相反,选择一个表示与选择一组分类器是同义词,它可能会学习这些分类器。这个集合称为学习者的假设空间。

 

在大数据时代1 - 在大数据时代,你需要了解这些关于机器学习的事儿

 

评估:这是一个指标,可以帮助我们了解我们目前正在做什么。需要一个评估过程来区分好的分类器和不太好的分类器。比方说,如果你试图预测一个测试中的数字,例如对于一组大小为n,在这里,你可以计算平均绝对误差=1nΣni= 1 | observedi-predicti | 或者你甚至可以选择使用均方根误差=1nΣni= 1(observei-predicti)2---√

 

优化:指的是寻找方法来选择各种技术来优化它的过程。例如,我们可以简单地尝试假设空间中的每一个假设。否则,我们也可能选择使用更智能的技术来尝试最有利的假设。同时,当我们进行优化时,我们可以利用评价函数来理解这个特定的假设是否正确。如果评价函数有多个最优值,则优化技术允许用户更多地了解所创建的分类器。首先,初学者应该从现成的优化器开始,然后再转向定制设计的优化器。

 

3.单靠数据是做不到这一点的!

概化是主要目的,然而,它的主要问题是,无论数量多少,只有数据是不够的。然而,幸运的是,我们想要掌握的函数并不是一致地从一堆算术上可能的函数中得到的!即使是最一般的假设,包括平滑性、具有类似类的类似示例、不充分的依赖关系或有限的复杂性,大多数情况下也足以很好地运行,这也是机器学习如此强大的主要原因之一。基本上所有的初学者都将知识与大数据联合起来制作程序。

 

  1. 谨防过度拟合

如果数据不充分,无法完全确定apt分类器,我们可能会幻想一个分类器。这个问题被称为过度拟合,它被认为是ML的一个麻烦。注意过度拟合是有益的,但它不能解决问题。你必须想办法摆脱它。幸运的是,你有很多选择可以尝试。交叉验证有助于克服过度拟合。训练与更多的数据,正则化,删除特征,早期停止,ensambling是一些其他的方法卸载过拟合。

 

  1. 特征工程是成功的关键

特征工程是利用数据的核心领域知识来开发使ML算法更好工作的特征的技术。如果处理得当,它将通过从原始数据开发特性来增强算法的预测能力。这些特性简化了整个机器学习过程。利用几个独立的功能,这很好地与类相关,然后学习变得容易。

 

  1. 准确性和简单性是不同的

奥卡姆剃刀定律极好地说明,物体不应增加超过要求。这意味着两个分类器有相似的训练误差,两个分类器中较简单的一个可能有最严重的测试误差。每一个机器学习项目的启动都应该对你希望回答的业务问题有一个不懈的目标。你应该从制定分析的主要成功原则开始。

 

应用奥卡姆剃刀定律并选择最容易解释、阐明、部署和管理的模型是构建强大机器学习程序的关键步骤。建议选择最简单且足够精确的模型,但是,要确保你深入了解这个问题,以了解“足够精确”在实践中意味着什么。