本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 SageMaker 项目?
SageMaker Projects 可以帮助组织为数据科学家设置和标准化开发人员环境,为 mLOP 工程师设置和标准化 CI/CD 系统。项目还可以帮助组织设置依赖关系管理、代码库管理、构建可重复性和工件共享。
您可以预置 SageMaker 来自Amazon使用自定义模板或 SageMaker 提供的模板的 Service Catalog。有关的信息Amazon请参阅 Service Catalog什么是AmazonService Catalog. 与 SageMaker 项目、mLOP 工程师和组织管理员可以定义自己的模板或使用 SageMaker 提供的模板。SageMaker 提供的模板通过源代码版本控制、自动机器学习管道和一组代码来引导机器学习工作流程,以便快速开始迭代 ML 用例。
什么时候应该使用 SageMaker 项目?
虽然笔记本有助于模型构建和实验,但共享代码的数据科学家和机器学习工程师团队需要一种更可扩展的方式来维护代码一致性和严格的版本控制。
每个组织都有自己的一套标准和做法,为其提供安全和治理Amazon环境。 SageMaker 为希望快速开始使用机器学习工作流程和 CI/CD 的组织提供了一套第一方模板。模板包括使用的项目Amazon-CI/CD 的原生服务,例如Amazon CodeBuild、Amazon CodePipeline, 和Amazon CodeCommit. 这些模板还提供了创建使用第三方工具(例如 Jenkins 和 GitHub)的项目的选项。要获取以下项目模板列表: SageMaker 提供了,请参阅使用 SageMaker 提供的项目模板.
Organizations 通常需要严格控制他们预配和管理的 mLOP 资源。此类责任承担某些任务,包括配置 IAM 角色和策略、强制执行资源标签、强制加密以及跨多个账户解耦资源。 SageMaker 项目可以通过组织使用的自定义模板产品支持所有这些任务Amazon CloudFormation用于定义机器学习工作流所需资源的模板。数据科学家可以选择模板来引导和预配置他们的机器学习工作流。这些自定义模板的创建方式为Amazon Service Catalog产品,你可以在 Studio UI 下配置它们组织模板. 这些区域有:Amazon Service Catalog是一项服务,可帮助组织创建和管理已批准在上使用的产品的目录。Amazon. 有关创建自定义模板的更多信息,请参阅构建自定义 SageMaker 项目模板 — 最佳实践
SageMaker Projects 可以帮助你管理 Git 仓库,以便你可以在团队之间更有效地协作,确保代码一致性并支持 CI/CD。 SageMaker 项目可以帮助您完成以下任务:
-
将 ML 生命周期的所有实体组织在一个项目下。
-
建立一键式方法,为模型训练和部署设置标准机器学习基础架构,其中包含了最佳实践。
-
为机器学习基础架构创建和共享模板以服务多个使用案例。
-
利用 SageMaker 提供的预构建模板快速开始专注于模型构建,或者使用组织特定的资源和指南创建自定义模板。
-
通过扩展项目模板与您选择的工具集成。有关示例,请参阅 。创建 SageMaker 要与之集成的项目 GitLab 和 GitLab 管道
. -
将 ML 生命周期的所有实体组织在一个项目下。
什么是 SageMaker 项目?
客户可以灵活地使用最适合其使用案例的资源来设置自己的项目。下面的示例展示了机器学习工作流程的 mLOP 设置,包括模型训练和部署。
使用 SageMaker 提供的模板的典型项目可能包括以下内容:
-
一个或多个具有示例代码的存储库来构建和部署 ML 解决方案。这些是可行的示例,您可以在本地克隆并根据需要进行修改。您拥有此代码,可以利用版本控制的存储库来执行任务。
-
一个 SageMaker 用于定义数据准备、训练、模型评估和模型部署的步骤,如下图所示。
-
一个 CodePipeline 或者运行你的 Jenkins 管道 SageMaker 每次签入新版本的代码时管道。有关 CodePipeline 的信息,请参阅是什么AmazonCodePipeline。有关 Jenkins 的更多信息,请参阅Jenkins 用户文档
. -
包含模型版本的模型组。每次批准生成的模型版本时 SageMaker 管道运行,你可以将其部署到 SageMaker 终端节点。
EQUE SageMaker 项目具有唯一的名称和 ID,作为标签应用于所有 SageMaker 和Amazon在项目中创建的资源。使用名称和 ID,您可以查看与项目关联的所有实体。其中包括:
-
管道
-
注册模型
-
已部署的模型(端点)
-
数据集
-
Amazon Service Catalog产品
-
CodePipeline 和詹金斯管道
-
CodeCommit 和第三方 Git 存储库
我需要创建一个项目才能使用 SageMaker Pipeline 吗?
否。 SageMaker 管道是独立的实体,就像培训作业、处理作业和其他 SageMaker 个作业。您可以直接在笔记本中创建、更新和运行管道,方法是使用 SageMaker Python SDK 不使用 SageMaker 项目。
项目提供了一个额外的层来帮助您组织代码并采用生产质量系统所需的最佳操作实践。