400 050 6600
数据分析师

手机号

验证码

30天自动登录
当前位置:首页 - Q&A问答

Q&AQ&A问答

当今高度复杂的云原生世界的数据保护

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-08-05

他们可以将他们的工作负载分配到任何需要的地方

尽管如此,开发人员的角色通常会扩展到以前可能是操作的领域,尤其是对于数据库而言,反之亦然,云原生世界中,这是一个开发功能,因为开发人员需要将数据库状态数据的机制整合在一起,同时运营团队还以代码的形式创建基础架构的版本,因此他们可以不断进行变革,可帮助组织和个人建立数字未来,并改变其工作,生活和娱乐方式,该公司为客户提供从边缘到核心再到云的业界广泛和创新性的技术和服务组合。

 

开发人员需要做的一件事是执行数据保护

维护和管理任务,以减慢其开发和部署应用程序的能力,这是选择工具集和平台的关键所在,开发人员希望从某种可以帮助他们加快创新速度的事情开始,他们希望减少障碍,并弄清楚如何加快软件交付流程,当然,开源继续发挥着不可或缺的作用,曾经有一段时间我们进行了一个开源项目,而您围绕它建立了支持,这就是业务的范围,现在在这一点上,我们已经从字面上理解了开源。

 

生产中的机器学习:部署个ML模型的经验教训

机器学习模型通常有两种形式:用于批处理预测的模型和用于在生产应用程序中进行实时预测的模型。这些分别称为离线模型和在线模型。离线模型所需的工程量很少,有助于可视化,规划和预测业务决策,另一方面,在线模型需要大量的工程工作,并用于通过建议个性化客户的体验,基于项目需求了解使用哪种模型至关重要,因为它不仅决定了部署过程,而且还影响了模型的训练方式,在本文中,我将讨论在实时生产应用程序中部署个在线机器学习模型时我们面临的一些挑战,以及我们如何应对这些挑战。

 

当我们开始创建模型时,我们很少考虑将模型实际部署到我们的应用程序中

我们在笔记本中构建了模型,该笔记本从数据仓库中加载了干净的数据模型,转换了各个列,并生成了一个模型。尽管这种方法在快速迭代和实验中非常有效,但在部署过程中却带来了一些困难,尤其是在特征提取,特征转换和可伸缩性方面。相反,我们需要找到一种方法来准确地执行这些操作,同时具有足够的可伸缩性和灵活性,以供将来的部署重复使用,有了更多的远见,我们可以大大减少将模型从笔记本电脑迁移到已部署应用程序所需的工程工作量。

 

特征提取业界普遍认为,数据科学家应该期望花费至少80%的时间来准备数据

这是因为创建良好的训练数据集通常需要我们从多个原始数据源中收集数据,然后使用该数据来创建可能可以预测目标变量的新功能,我们拥有一支非常有才能的CPDA数据分析师团队,他们已经从原始数据中构建了复杂的数据模型,以便跟踪我们的业务目标,我们发现,这些预先转换的功能对于建模至关重要。尽管可能很想直接导出数据模型以用于预测建模(我们一开始就对此感到内!!),但跳过预转换的功能可能会给部署到实时应用程序中带来严峻挑战。

 

出于报告目的而限制在数据仓库中的数据模型已经过优化

可以按可预测的节奏在大量数据上运行,这从根本上不同于应在生产机器学习应用程序中进行特征提取的方式,我们发现,我们需要以不可预测的节奏从少量数据中提取特征,这意味着我们不能按原样使用数据模型,此外我们发现我们需要复制特征提取来满足我们在Python(而不是SQL)中的不同需求,这是因为我们的部署模型无法接收数据模型提供的表格格式的数据,Python为我们提供了以易于维护的方式解析半结构化数据所必需的工具。

 

特征转换是训练数据集特征工程中的另一个重要步骤

除其他过程外,这可能包括缺失值插补,合并和一键编码,特征转换特别棘手,因为生产数据是不可预测的,例如训练数据中可能有一列没有缺失数据,因此训练数据不会为该列估算缺失值,但是这并不一定意味着该字段永远不会缺少值,忽略这种极端情况可能意味着在情况下会出现错误或延迟,或者在坏的情况下可能导致模型中的无形错误,当我们意识到这一点时。

 

我们使用了不同的熊猫方法来执行这些操作

但是我们很快发现,在部署时,这些方法无法满足我们的需求,例如大熊猫具有一种称为“获取假人”的方法,该方法对于单次热编码非常有用,但只能用于训练数据,因为它需要了解要素的所有可能类别,在一个实时环境中,一次只记录一条记录的这种情况下,该方法将只知道一个可能的类别,这意味着一键编码的列将无法反映我们需要的适当类别。

 

 客服热线:400-050-6600

商业联合会数据分析专业委员会

 

 

 

Prev article

医疗保健中的AI-它会帮助还是使情况变得更糟?

Next article

数据管理到底是什么?为什么需要它?

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务