Tensor 并行度 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Tensor 并行度

Tensor 并行度是一种模型并行性,其中特定的模型权重、渐变和优化程序状态在不同设备之间进行分割。与管道并行性不同,管道并行度保持了个别权重不变,但是将设置在权重中,张量并行度分割单个权重。这通常涉及对模型的特定操作、模块或层进行分布式计算。

在单个参数消耗大部分 GPU 内存的情况下(例如,词汇量较大的大型嵌入表或具有大量类的大型 softmax 层),则需要 Tensor 并行性。在这种情况下,将这种大张量或操作当作原子单元处理效率低下,并且会阻碍内存负载的平衡。

对于纯流水线根本不够的极大型模型,Tensor 并行性也很有用。例如,对于需要在数十个实例上进行分区的 GPT-3 级模型,因此纯微批量流水线效率低下,因为管道深度变得太高,开销变得令人望而却步。