本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
配置 SageMaker 澄清处理 Job 容器的输入和输出参数
“处理 Job” 要求您指定以下输入参数:具有输入名称的数据集文件"dataset"作为 Amazon S3 对象或前缀,以及带有输入名称的分析配置文件"analysis_config"作为 Amazon S3 对象。该作业还需要输出参数:作为 Amazon S3 前缀的输出位置。
您可以使用创建并运行处理作业。 SageMaker CreateProcessingJob使用 APIAmazonSDK 或 CLI 或开发工具包
使用 SageMaker Python SDK,创建一个Processor使用 SageMaker 澄清容器映像 URI:
from sagemaker import clarify clarify_processor = clarify.SageMakerClarifyProcessor(role=role, instance_count=1, instance_type='ml.c5.xlarge', max_runtime_in_seconds=1200, volume_size_in_gb=100)
完成创建澄清处理器后,需要为处理器设置输入和输出对象。
如果你提供"dataset_uri"通过 “分析 _config.json”(请参阅以下主题配置分析),您无需创建dataset_input对象。
dataset_path = "s3://my_bucket/my_folder/train.csv" analysis_config_path = "s3://my_bucket/my_folder/analysis_config.json" analysis_result_path = "s3://my_bucket/my_folder/output" analysis_config_input = ProcessingInput( input_name="analysis_config", source=analysis_config_path, destination="/opt/ml/processing/input/config", s3_data_type="S3Prefix", s3_input_mode="File", s3_compression_type="None") dataset_input = ProcessingInput( input_name="dataset", source=dataset_path, destination="/opt/ml/processing/input/data", s3_data_type="S3Prefix", s3_input_mode="File", s3_compression_type="None") analysis_result_output = ProcessingOutput( source="/opt/ml/processing/output", destination=analysis_result_path, output_name="analysis_result", s3_upload_mode="EndOfJob")