本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
推理管道日志和指标
要维护 Amazon 的可靠性、可用性和性能,实施监控非常重要。 SageMaker 资源的费用。要监控推理管道性能并进行问题排查,请使用 Amazon CloudWatch 日志和错误消息。有关 SageMaker 提供的监控工具的信息,请参阅。监控 Amazon SageMaker.
使用指标监控多容器模型
要监控推理管道中的多容器模型,请使用 Amazon CloudWatch。CloudWatch 收集并将数据处理为便于读取的近乎实时的指标。SageMaker写入训练作业和终端节点 CloudWatch 中的指标和日志AWS/SageMaker 命名空间.
以下各表列出以下内容的指标和维度。
-
终端节点调用
-
训练作业、批量转换作业和终端节点实例
维度 是用于唯一标识指标的名称/值对。您可以为一个指标分配最多 10 个维度。有关使用 CloudWatch 监控的更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon SageMaker.
终端节点调用指标
这些区域有: AWS/SageMaker命名空间包括以下:请求来自调用的指标InvokeEndpoint.
指标每 1 分钟报告一次。
| 指标 | 说明 |
|---|---|
Invocation4XXErrors |
模型为其返回 单位:None(无) 有效统计数据: |
Invocation5XXErrors |
模型为其返回 单位:None(无) 有效统计数据: |
Invocations |
发送到模型终端节点的 要获取发送到模型终端节点的请求总数,请使用 单位:None(无) 有效统计数据: |
InvocationsPerInstance |
发送到模型的终端节点调用数,通过规范化 单位:None(无) 有效统计数据: |
ModelLatency |
模型进行响应所需的时间。这包括以下操作所花的时间:发送请求,从模型容器中提取响应,以及完成容器中的推理。ModelLatency 是一个推理管道中所有容器所花的总时间。单位:微秒 有效统计数据: |
OverheadLatency |
由于以下操作添加到对客户端的响应用时中的时间: SageMaker 用于开销。 单位:微秒 有效统计数据: |
ContainerLatency |
推理管道容器响应花费的时间。从 SageMaker 中看到.ContainerLatency包括以下操作所花的时间:发送请求,从模型容器中提取响应,以及完成容器中的推理。单位:微秒 有效统计数据: |
终端节点调用指标的维度
| 维度 | 说明 |
|---|---|
EndpointName, VariantName, ContainerName |
筛选终端节点调用指标的 |
对于推理管道端点, CloudWatch 将账户中的每容器延迟指标列为端节点容器指标和终端节点变体指中的SageMaker命名空间,如下所示。该 ContainerLatency 指标仅适用于推理管道。
对于每个终端节点和每个容器,延迟指标显示的名称:容器、终端节点、变体和指标。
训练作业、批量转换作业和终端节点实例指标
命名空间 /aws/sagemaker/TrainingJobs、/aws/sagemaker/TransformJobs 和 /aws/sagemaker/Endpoints 包括以下用于训练作业和终端节点实例的指标。
指标每 1 分钟报告一次。
| 指标 | 说明 |
|---|---|
CPUUtilization |
实例上运行的容器所使用的 CPU 单位的百分比。值范围从 0% 到 100%,并且乘以 CPU 数目。例如,如果有四个 CPU, 对于训练作业, 对于批量转换作业, 对于多容器模型, 适用于终端节点变体, 单位:百分比 |
MemoryUtilization |
实例上运行的容器所使用的内存的百分比。此值范围从 0% 到 100%。 对于训练作业, 对于批量转换作业, MemoryUtilization 是实例上运行的所有容器的所使用的内存总和。对于终端节点变体, 单位:百分比 |
GPUUtilization |
在实例上运行的容器所使用的 GPU 单元的百分比。 对于训练作业, 对于批量转换作业, 对于多容器模型, 对于终端节点变体, 单位:百分比 |
GPUMemoryUtilization |
实例上运行的容器所使用的 GPU 内存的百分比。GPUMemoryUtilization 范围从 0% 到 100%,并乘以 CPU 的数目。例如,如果有四个 GPU, 对于训练作业, 对于批量转换作业, 对于多容器模型, 对于终端节点变体, 单位:百分比 |
DiskUtilization |
实例上运行的容器所使用的磁盘空间的百分比。 DiskUtilization 范围从 0% 到 100%。批量转换作业不支持此指标。 对于训练作业, 对于终端节点变体, 单位:百分比 |
训练作业、批量转换作业和终端节点实例指标的维度
| 维度 | 说明 |
|---|---|
Host |
对于训练作业, 对于批量转换作业, 对于终端节点, |
为帮助您调试训练作业、终端节点和笔记本实例生命周期配置, SageMaker 此外,还会发送算法容器、模型容器或笔记本实例生命周期配置发送到的任何内容也stdout要么stderr到 Amazon CloudWatch 日志。您可以使用此信息用于调试并分析进度。
使用日志监控推理管道
下表列出了 SageMaker 日志组和日志流。发送到亚马逊 CloudWatch
日志流是共享同一个源的一系列日志事件。每个独立的登录源 CloudWatch 构成一个独立的日志流。日志组是一组具有相同保留期、监控和访问控制设置的日志流。
日志
| 日志组名称 | 日志流名称 |
|---|---|
/aws/sagemaker/TrainingJobs |
|
/aws/sagemaker/Endpoints/[EndpointName] |
|
|
|
|
|
|
|
/aws/sagemaker/NotebookInstances |
|
/aws/sagemaker/TransformJobs |
|
|
|
|
|
|
SageMaker 创建/aws/sagemaker/NotebookInstances在您使用生命周期配置创建笔记本实例时的日志组。有关更多信息,请参阅 使用生命周期配置脚本自定义笔记本实例 。
有关 的更多信息 SageMaker 请参阅日志记录使用 Amazon CloudWatch 记录 Amazon SageMaker 事件.