本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
你为什么要使用 mLOP?
当您从运行个人人工智能和机器学习 (AI/ML) 项目转向使用 AI/ML 大规模实现业务转型时,机器学习运营 (mLOP) 的纪律可以提供帮助。MPLOP 考虑了 AI/ML 项目在项目管理、CI/CD 和质量保证方面的独特方面,帮助您缩短交付时间、减少缺陷并提高数据科学的效率。mLOP 是指建立在应用基础上的方法 DevOps 机器学习工作负载的实践。对于讨论 DevOps 原则,请参阅白 paper简介 DevOps 上Amazon. 要了解有关实施的更多信息Amazon服务,请参阅在练 CI/CDAmazon
与 DevOps 一样,MPLOP 依赖于机器学习开发生命周期的协作和简化方法,其中人员、流程和技术的交叉优化了 end-to-end 开发、构建和操作机器学习工作负载所需的活动。
mLOP 重点关注数据科学和数据工程与现有结合的交叉点 DevOps 在整个机器学习开发生命周期中简化模型交付的做法。mLOP 是将机器学习工作负载集成到发布管理、CI/CD 和操作中的学科。MPLOP 需要软件开发、运营、数据工程和数据科学的集成。
MPLOP 面临的挑战
尽管 mLOP 可以提供有价值的工具来帮助您扩展业务,但在将 mLOP 集成到机器学习工作负载中时,您可能会面临某些问题。
项目管理
-
机器学习项目涉及数据科学家,这是一个相对较新的角色,而且不经常集成到跨职能团队中。这些新团队成员通常使用的技术语言与产品所有者和软件工程师截然不同,这使得将业务需求转化为技术要求的常见问题更加复杂。
沟通与协作
-
建立机器学习项目的可见性,实现不同利益相关方之间的协作,例如数据工程师、数据科学家、机器 DevOps 对于确保取得成功结果而言变得越来越重
一切都是代码
-
在开发活动中使用生产数据、更长的实验生命周期、对数据管道的依赖性、再培训部署管道以及评估模型性能的独特指标。
-
模型的生命周期通常独立于与这些模型集成的应用程序和系统。
-
整个 end-to-end 系统可以通过版本控制的代码和工件重现。 DevOps 项目使用基础设施即代码 (iAC) 和配置即代码 (CAC) 来构建环境,并使用管道即代码 (PAC) 来确保 CI/CD 模式的一致性。管道必须与大数据和机器学习培训工作流程集成。这通常意味着管道是传统的 CI/CD 工具和另一个工作流引擎的组合。许多机器学习项目都存在重要的政策问题,因此管道可能还需要强制执行这些政策。有偏见的输入数据会产生有偏见的结果,这是企业利益相关者
CI/CD
-
在 mLOP 中,源数据与源代码一起是一流的输入。这就是为什么 mLOP 呼吁对源数据进行版本控制并在源数据或推理数据发生变化时启动管道运行的原因。
-
为了提供可追溯性,管道还必须对机器学习模型以及输入和其他输出进行版本化。
-
自动测试必须包括在构建阶段和模型投入生产时对机器学习模型进行正确验证。
-
构建阶段可能包括模型训练和再培训,这是一个耗时且资源密集型的过程。管道必须足够细化,以便仅在源数据或机器学习代码发生更改时执行完整的训练周期,而不是在相关组件更改时执行。
-
由于机器学习代码通常是整体解决方案的一小部分,因此部署管道还可能包含将模型打包为其他应用程序和系统作为 API 使用所需的额外步骤。
监控和日志记录
-
捕获模型训练指标和模型实验所需的特征工程和模型训练阶段。调整 ML 模型需要操作输入数据的形式以及算法超参数,并系统地捕获这些实验。实验跟踪有助于数据科学家更有效地工作,并为他们的工作提供可重复的快照。
-
已部署的机器学习模型需要监控传递给模型进行推理的数据,以及标准端点稳定性和性能指标。监测系统还必须根据适当的机器学习指标评估,捕获模型输出的质量。
MPLOP 的优势
采用 mLOP 实践可以让你更快 time-to-market 通过提供以下好处来实现机器学习项目。
-
生产力:通过提供对精选数据集的访问权限的自助服务环境,可以让数据工程师和数据科学家更快地移动,减少对丢失或无效数据的
-
可重复性:自动执行 MOLDC 中的所有步骤有助于确保可重复的过程,包括如何训练、评估、版本控制和部署模型。
-
可靠性:结合 CI/CD 实践不仅可以快速部署,而且能够提高质量和一致性。
-
可审核性:对所有输入和输出进行版本控制,从数据科学实验到源数据再到训练模型,这意味着我们可以准确地展示模型是如何构建和部署在哪里的。
-
数据和模型质量:MPLOP 使我们能够强制执行防范模型偏差的政策,并跟踪随时间推移对数据统计属性和模型质量的变化。