400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

怎样才能实现机器学习民主化?

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-07-10

通过尝试一系列选项,对其进行测试,然后再进行其他尝试来使该阶段自动化

它不需要运行一次机器学习算法,而是运行N次,进行一些调整,然后再次运行N次,通常重复执行直到您的预算,金钱或耐心都用尽,工具自然适合云计算,因为它们可以在云中启动足够多的计算机以并行运行,然后在完成后将它们返回到池中,您只需为高峰计算时间付费,通常对于开始自行探索机器学习的人们来说,算法是不错的选择,自动化通过处理一些设置参数和选择选项的基本工作,然后再为您测试结果,从而简化了工作,随着用户变得越来越老练并开始理解结果,他们可以承担更多的这些工作并自行设置值。

 

的系统还使学习机器如何学习变得更加容易

如果经典编程将规则和数据转化为答案,则机器学习算法将向后工作,并将答案和数据转化为规则-这些规则可能会教您业务深层的发展。这些简化工具的开发人员还正在创建接口,以解释算法发现的规则,更重要的是,如何复制结果,他们想打开黑盒子来增进了解。

 

6种使机器学习更轻松的工具

所有这些功能通过消除对编程和数据科学的精通需求,为使用数字,电子表格和数据的人们打开了机器学习的世界,以下六个选项简化了使用机器学习算法查找到达办公桌的大量数字的答案。

 

原始版本起初是一种用于搜索(或“搜索”)由现代Web应用程序创建的大量日志文件的工具。从那时起,它就可以分析所有形式的数据,尤其是时间序列和按顺序产生的其他形式。该工具在具有复杂的可视化例程的仪表板中显示结果。

 

版本包括将数据源与机器学习工具和一些的Python开源工具集成的应用程序

它们提供了用于检测异常值,标记异常并为将来的值生成预测的快速解决方案。它们经过优化,可以在非常大的数据集中搜索众所周知的针头。

 

数据机器人

在堆栈中是一些用RPython或其他几种平台编写的开源计算机库的集合,您将只处理一个Web界面,该界面显示类似于流程图的工具来设置管道,连接到所有主要数据源,包括本地数据库,云数据存储以及下载的文件或电子表格。您构建的管道可以清理数据,填写缺失值,然后生成模型以标记异常值并预测未来值,可以尝试就做出某些预测的原因提供人性化的解释,这是了解AI可能如何工作的有用功能,它可以部署在云和本地解决方案的混合中,云实施可通过共享资源提供的并行度和吞吐量,而本地安装可提供更多的隐私和控制权。

 

喜欢使用“无人驾驶AI”一词来描述其自动化堆栈,以探索各种机器学习解决方案

它将数据源(数据库,HadoopSpark等)联系在一起,并将其馈入具有各种参数的各种算法中,您可以控制时间并计算用于该问题的资源,并测试各种参数组合,直到预算完成为止。可以通过仪表板笔记本浏览和审核结果,核心机器学习算法以及工具的集成都是开放源代码,但是所谓的无人驾驶选项是与支持一起出售给企业客户的专有包装之一。

 

生态系统的核心是一个工作室,用于从视觉图标创建数据分析

一点点拖放就会产生一条管道,该管道将清理您的数据,然后通过各种统计算法运行它,如果您想使用机器学习代替一些更传统的数据科学,则自动模型将从众多分类算法中进行选择,并搜索各种参数,直到找到合适的参数,该工具的目标是生成数百个模型,然后确定模型,一旦创建了模型,该工具就可以部署它们,同时测试它们的成功率并解释模型如何做出决策,可以使用可视工作流编辑器测试和调整对不同数据字段的敏感性。

 

的增强功能包括更好的文本分析,用于构建可视仪表盘的更多图表以及用于分析时间序列数据的更复杂的算法。

 

仪表板提供所有数据科学的基本工具用于鉴定可以形成与机器学习更复杂的工作基础的相关性

例如他们提供了复杂的机制来测试和优化更复杂的神经网络,可以使用标准化的比较框架将模型的质量与其他算法进行比较,该框架可以帮助您在经典数据科学和更复杂的机器学习之间进行选择。

 

仪表板运行在您的浏览器中,其分析运行在云或服务器机房的安装中

云版本的价格设置得较低,以鼓励早期尝试,甚至还有一个自由层,成本主要取决于数据集大小和可调用的计算资源量的限制,免费层将使用不超过两个并行运行的进程来分析多达16MB的数据,较小的付费帐户的定价非常合理,每月账单低至30元,但是成本随着资源需求的增加而增加。

 

R工作室对于非程序员来说,R不是一种易于使用的语言

但它仍然是进行复杂的统计分析的基本工具之一,因为它在核心数据科学家中非常流行。R 是一种工具它为用户提供了一组菜单和点击选项,使与深入内部的R层进行交互变得更加容易,能够处理电子表格的老练经理可以使用简单的选项来运行基本分析,甚至可以进行一些复杂的分析,它仍然比需要的要痛苦得多,并且某些部分将使普通用户感到困惑,但是它正处于开放的边缘,每个愿意投资一段时间的人都可以使用,仍然会有一些混乱,但是对于那些想要探索尖端工具的人来说,这是值得的。

 

Prev article

统计学的艺术–如何从数据中学习?

Next article

为什么说未来之战就是数据之战?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务