Tensor 并行度

Tensor 并行度是一种模型并行性，其中特定的模型权重、渐变和优化程序状态在不同设备之间进行分割。与管道并行性不同，管道并行度保持了个别权重不变，但是将设置在权重中，张量并行度分割单个权重。这通常涉及对模型的特定操作、模块或层进行分布式计算。

在单个参数消耗大部分 GPU 内存的情况下（例如，词汇量较大的大型嵌入表或具有大量类的大型 softmax 层），则需要 Tensor 并行性。在这种情况下，将这种大张量或操作当作原子单元处理效率低下，并且会阻碍内存负载的平衡。

对于纯流水线根本不够的极大型模型，Tensor 并行性也很有用。例如，对于需要在数十个实例上进行分区的 GPT-3 级模型，因此纯微批量流水线效率低下，因为管道深度变得太高，开销变得令人望而却步。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

PyTorch 的扩展功能

工作方式