PyTorch 的 SageMaker 模型并行库的扩展功能 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

PyTorch 的 SageMaker 模型并行库的扩展功能

除了它核心功能, SageMaker 分布式模型 parallel 库为使用 PyTorch 训练深度学习模型提供了节省内存的功能:张量并行、优化器状态分片、激活检查点和激活卸载。

注意

可以通过适用于 PyTorch 的 Deep Learning Containers 实现扩展内存节省功能,该容器实现 SageMaker 分布式模型 parallel 库 v1.6.0 或更高版本。

对于以下每项功能,您都可以保留相同的两步工作流程运行 SageMaker 具有模型并行性的分布式培训 Job部分,然后将一些额外的参数和代码行添加到 SageMaker PyTorch估算器和训练脚本。

要查找如何使用扩展功能的示例,请参阅使用训练 GPT-2 PyTorch 使用 1.8.1 和张量并行度 SageMaker 模型并行度库.