运行 SageMaker 具有模型并行性的分布式培训 Job - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运行 SageMaker 具有模型并行性的分布式培训 Job

了解如何运行分布式模型 parallel 训练作业 SageMaker Python SDK 包含您自己的训练脚本和 SageMaker 的分布式模型 parallel 库。

有三种用例场景可用于运行 SageMaker 训练作业:

  1. 您可以使用其中一个预构建的Amazon的深度学习容器 TensorFlow PyTorch。如果您是第一次使用模型 parallel 库,则建议使用此选项。查找有关如何运行 SageMaker 模型 parallel 训练作业,请参阅MNIST PyTorch 1.6 和 Amazon SageMaker 的分布式模型 parallel 库.

  2. 您可以扩展预构建的容器,以满足预构建的算法或模型的任何其他功能要求。 SageMaker Docker 镜像不支持。有关如何扩展预构建的容器的示例,请参阅。扩展预构建的容器.

  3. 你可以调整自己的 Docker 容器来使用 SageMaker 使用SageMaker 培训工具包. 有关示例,请参阅 。调整您自己的训练容器.

有关前面列表中的选项 2 和 3,请参阅扩展包含 SageMaker 分布式模型并行库的预构建 Docker 容器了解如何在扩展或自定义的 Docker 容器中安装模型 parallel 库。

在所有情况下,你都会启动你的训练作业 SageMaker TensorFlow要么PyTorch用于初始化库的估计器。要了解更多信息,请参阅以下主题。