本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
调试器见解 — 概述
在存储库的概述选项卡中,您可以找到培训工作摘要、资源利用率摘要、资源密集型操作和见解。
训练任务摘要
这些区域有:训练任务摘要一节显示了在培训的不同阶段所花费的总体训练时间:初始化、训练循环和最终完成。饼图显示了在不同培训阶段花费的时间使用百分比和绝对时间。例如,您可以对初始化训练作业需要多长时间进行高级概述,检查初始化是否由于数据下载而花费的时间过长,从而使 GPU 处于空闲状态。
本节具有以下功能:
-
这些区域有:随着时间的推移培训图表显示了一段时间内不同培训阶段的时间表。如果你正在使用现场训练,你也可以在时间线图表中找到现货中断。
-
这些区域有:训练任务详情面板显示确切的时间戳和利用率百分比数字。
-
开始时间:培训工作开始的确切时间。
-
结束时间:培训工作完成的确切时间。
-
Job 时间:总训练时间从开始时间到结束时间.
-
训练循环开始:第一个时代的第一步开始的确切时间。
-
训练循环结束:最后一个时代的最后一步完成的确切时间。
-
训练循环:训练循环开始时间和训练循环结束时间之间的总时间。
-
初始化:花在初始化培训任务上的时间,例如编译培训脚本、启动 Amazon EC2 实例和下载培训数据。
-
FINAL:花在完成培训任务上的时间,例如完成模型训练、更新模型工件和关闭 Amazon EC2 实例。
-
初始化 (%):花费的时间百分比初始化总数超过Job 时间.
-
训练循环 (%):花费的时间百分比训练循环总数超过Job 时间.
-
最后定稿 (%):花费的时间百分比FINAL总数超过Job 时间.
-
资源使用率摘要
此摘要表显示了所有工作线程的硬件系统资源利用率统计信息 (algo-n)。系统指标包括 CPU 总使用率、GPU 总使用率、CPU 内存总利用率、GPU 内存总利用率、总 I/O 等待时间以及总网络(以字节为单位)。该表显示了最小值和最大值,以及 p99、p90 和 p50 百分位数。
资源密集型操作
这些区域有:资源密集型操作部分提供了更详细的分析结果,显示哪些培训作业操作是计算密集型的 在下面的示例中,它显示卷积神经网络向后传递运算符是 GPU 上资源密集度最高的。
见解
在见解窗格中,你可以找到调试器内置规则检测到的训练问题。您可以展开列表中的每个条目,以查找有用的见解、建议、规则描述以及启动规则的标准。
有关调试程序内置规则的更多信息,请参阅调试程序内置规则列表.