运行 SageMaker 具有模型并行性的分布式培训 Job

了解如何运行分布式模型 parallel 训练作业 SageMaker Python SDK 包含您自己的训练脚本和 SageMaker 的分布式模型 parallel 库。

有三种用例场景可用于运行 SageMaker 训练作业：

您可以使用其中一个预构建的Amazon的深度学习容器 TensorFlow PyTorch。如果您是第一次使用模型 parallel 库，则建议使用此选项。查找有关如何运行 SageMaker 模型 parallel 训练作业，请参阅MNIST PyTorch 1.6 和 Amazon SageMaker 的分布式模型 parallel 库.
您可以扩展预构建的容器，以满足预构建的算法或模型的任何其他功能要求。 SageMaker Docker 镜像不支持。有关如何扩展预构建的容器的示例，请参阅。扩展预构建的容器.
你可以调整自己的 Docker 容器来使用 SageMaker 使用SageMaker 培训工具包. 有关示例，请参阅。调整您自己的训练容器.

有关前面列表中的选项 2 和 3，请参阅扩展包含 SageMaker 分布式模型并行库的预构建 Docker 容器了解如何在扩展或自定义的 Docker 容器中安装模型 parallel 库。

在所有情况下，你都会启动你的训练作业 SageMaker TensorFlow要么PyTorch用于初始化库的估计器。要了解更多信息，请参阅以下主题。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

核心功能

步骤 1：修改您自己的训练脚本