本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
运行 SageMaker 具有模型并行性的分布式培训 Job
了解如何运行分布式模型 parallel 训练作业 SageMaker Python SDK 包含您自己的训练脚本和 SageMaker 的分布式模型 parallel 库。
有三种用例场景可用于运行 SageMaker 训练作业:
-
您可以使用其中一个预构建的Amazon的深度学习容器 TensorFlow PyTorch。如果您是第一次使用模型 parallel 库,则建议使用此选项。查找有关如何运行 SageMaker 模型 parallel 训练作业,请参阅MNIST PyTorch 1.6 和 Amazon SageMaker 的分布式模型 parallel 库
. -
您可以扩展预构建的容器,以满足预构建的算法或模型的任何其他功能要求。 SageMaker Docker 镜像不支持。有关如何扩展预构建的容器的示例,请参阅。扩展预构建的容器.
-
你可以调整自己的 Docker 容器来使用 SageMaker 使用SageMaker 培训工具包
. 有关示例,请参阅 。调整您自己的训练容器.
有关前面列表中的选项 2 和 3,请参阅扩展包含 SageMaker 分布式模型并行库的预构建 Docker 容器了解如何在扩展或自定义的 Docker 容器中安装模型 parallel 库。
在所有情况下,你都会启动你的训练作业 SageMaker TensorFlow要么PyTorch用于初始化库的估计器。要了解更多信息,请参阅以下主题。