本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
故障排除 SageMaker 澄清处理任务
如果遇到与 SageMaker 澄清处理作业,请参阅以下方案以帮助确定问题。
失败原因和退出消息旨在包含描述性消息和例外(如果遇到)在运行期间。一个常见的原因是参数无效或缺少参数。如果您遇到不清楚、混乱或误导性的消息或无法找到解决方案,请提交反馈。
主题
处理作业未能完成
如果处理作业未能完成,可以尝试以下操作:
-
直接在运行作业的笔记本中检查作业日志。作业日志位于启动运行的笔记本电脑单元的输出中。
-
在 CloudWatch 中检查作业日志。
-
在笔记本中添加以下行以描述最后的处理作业并查找失败原因并退出消息:
-
clarify_processor.jobs[-1].describe()
-
-
执行下面的操作Amazon用于描述处理作业并查找失败原因并退出消息的 CLI 命令:
-
aws sagemaker describe-processing-job —processing-job-name <processing-job-id>
-
处理作业没有结果就完成了你会得到 CloudWatch 警告消息
如果处理作业已完成但没有找到结果并且在 CloudWatch 日志上显示 “信号 15 收到,正在清理”,这表明该作业已停止,原因是客户请求调用StopProcessingJobAPI 或者该作业已经用完完了分配的时间了。在后面的情况下,请检查作业配置中的最长运行时间 (max_runtime_in_seconds) 并根据需要增加它。
分析配置无效的错误消息
-
如果你收到错误消息 “无法将分析配置加载为 JSON。 “,这意味着处理作业的分析配置输入文件不包含有效的 JSON 对象。使用 JSON linter 检查 JSON 对象的有效性。
-
如果你收到错误消息 “分析配置模式验证错误。 “,这意味着处理作业的分析配置输入文件包含某些字段值的未知字段或无效类型。查看文件中的配置参数,然后使用配置规范文件。
几个或所有指标的偏差指标计算失败
如果您收到以下错误消息之一:“预测的标签列中没有标签值,则预测指数正数系列包含所有 False 值。” 或者 “预测标签列” 系列数据类型与标签列系列不同。 “,请尝试以下操作:
-
检查是否使用了正确的数据集。
-
检查数据集大小是否太小;例如,它是否只包含几行。这可能会导致模型输出具有相同的值,或者数据类型推断错误。
-
检查标签或刻面是被视为连续还是分类的。 SageMaker 澄清使用启发式算法来确定
DataType. 对于训练后的偏差指标,模型返回的数据类型可能与数据集中的数据类型不匹配,或 SageMaker 澄清可能无法正确转换它。 -
在偏差报告中,您应该看到分类列的单个值或连续列的间隔。
-
例如,如果一列的值为 0.0 和 1.0 作为浮点数,那么即使唯一值太少也会被视为连续值。
-
分析配置与数据/模型输入/输出之间不匹配
-
检查分析配置中的基线格式是否与数据集格式相同。
-
如果你收到错误消息 “无法将字符串转换为浮点数。 “,请检查格式是否正确指定。它还可能表明模型预测的格式与标签列不同,也可能表明标签或概率的配置不正确。
-
如果你收到错误消息 “找不到小面”。或者 “标题必须包含标签。” 或者 “配置中的标题与数据集中的列数不匹配。” 或 “找不到功能名称。 “,检查标题是否与列匹配。
-
如果收到错误消息 “数据必须包含要素。 “,请检查 JSON Line 的内容模板,并将其与数据集示例进行比较(如果可用)。
模型返回 500 内部服务器错误或容器由于模型错误而退回到每条记录的预测
如果您收到错误消息 “由于模型错误而回退到每条记录预测。 “,这可能表明模型无法处理批量大小或受到限制,或者由于序列化问题,只是不接受容器传递的输入。你应该查看 CloudWatch SageMaker 终端节点的日志并查找错误消息或追踪信息。对于模型限制情况,使用不同的实例类型或增加终端节点的实例数量可能有所帮助。
执行角色无效
这表示提供的角色不正确或缺少所需的权限。检查用于配置处理作业的角色及其权限,并验证角色的权限和信任策略。
无法下载数据
这表示无法下载作业输入以启动作业。检查存储桶名称和数据集的权限以及配置输入。
无法连接到 SageMaker
这表明工作无法到达 SageMaker 服务终端节点。检查处理作业的网络配置设置并验证 VPC 配置。