PyTorch 的 SageMaker 模型并行库的扩展功能

除了它核心功能， SageMaker 分布式模型 parallel 库为使用 PyTorch 训练深度学习模型提供了节省内存的功能：张量并行、优化器状态分片、激活检查点和激活卸载。

注意

可以通过适用于 PyTorch 的 Deep Learning Containers 实现扩展内存节省功能，该容器实现 SageMaker 分布式模型 parallel 库 v1.6.0 或更高版本。

对于以下每项功能，您都可以保留相同的两步工作流程运行 SageMaker 具有模型并行性的分布式培训 Job部分，然后将一些额外的参数和代码行添加到 SageMaker PyTorch估算器和训练脚本。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

第 2 步：启动训练 Job

Tensor 并行度