本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
PyTorch 的 SageMaker 模型并行库的扩展功能
除了它核心功能, SageMaker 分布式模型 parallel 库为使用 PyTorch 训练深度学习模型提供了节省内存的功能:张量并行、优化器状态分片、激活检查点和激活卸载。
可以通过适用于 PyTorch 的 Deep Learning Containers 实现扩展内存节省功能,该容器实现 SageMaker 分布式模型 parallel 库 v1.6.0 或更高版本。
对于以下每项功能,您都可以保留相同的两步工作流程运行 SageMaker 具有模型并行性的分布式培训 Job部分,然后将一些额外的参数和代码行添加到 SageMaker PyTorch估算器和训练脚本。
要查找如何使用扩展功能的示例,请参阅使用训练 GPT-2 PyTorch 使用 1.8.1 和张量并行度 SageMaker 模型并行度库