本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
访问监控和分析数据
smDebugTrainingJob类从保存系统和框架指标的 S3 存储桶读取数据。
要设置TrainingJob对象并检索训练作业的分析事件文件
from smdebug.profiler.analysis.notebook_utils.training_job import TrainingJob tj = TrainingJob(training_job_name, region)
您需要指定training_job_name和region要记录到训练任务的参数。可以通过两种方法指定培训作业信息:
-
在估算器仍附加到培训作业时,请使用 SageMaker Python SDK。
import sagemaker training_job_name=estimator.latest_training_job.job_name region=sagemaker.Session().boto_region_name -
直接传递字符串。
training_job_name="your-training-job-name-YYYY-MM-DD-HH-MM-SS-SSS" region="us-west-2"
默认情况下,SageMaker Debug 会收集系统指标以监控硬件资源利用率和系统瓶颈。运行以下函数,您可能会收到有关框架指标不可用的错误消息。要检索框架分析数据并深入了解框架操作,必须启用框架分析。
-
如果你使用 SageMaker Python SDK 来操作你的训练工作请求,请通过
framework_profile_params到profiler_config你的估计器的论点。要了解更多信息,请参阅配置 SageMaker 调试器框架分析. -
如果你使用 Studio,请使用分析调试器见解仪表板中的切换按钮。要了解更多信息,请参阅SageMaker 调试器洞察面板控制器.
检索培训作业描述和保存指标数据的 S3 存储桶 URI 的描述
tj.describe_training_job() tj.get_config_and_profiler_s3_output_path()
检查 S3 URI 中是否可以使用系统和框架指标
tj.wait_for_sys_profiling_data_to_be_available() tj.wait_for_framework_profiling_data_to_be_available()
在指标数据可用后创建系统和框架阅读器对象
system_metrics_reader = tj.get_systems_metrics_reader() framework_metrics_reader = tj.get_framework_metrics_reader()
刷新和检索最新的培训活动文件
读者对象有一个扩展的方法,refresh_event_file_list(),以检索最新的培训活动文件。
system_metrics_reader.refresh_event_file_list() framework_metrics_reader.refresh_event_file_list()