配置 SageMaker 澄清处理 Job 容器的输入和输出参数

“处理 Job” 要求您指定以下输入参数：具有输入名称的数据集文件"dataset"作为 Amazon S3 对象或前缀，以及带有输入名称的分析配置文件"analysis_config"作为 Amazon S3 对象。该作业还需要输出参数：作为 Amazon S3 前缀的输出位置。

您可以使用创建并运行处理作业。 SageMaker CreateProcessingJob使用 APIAmazonSDK 或 CLI 或开发工具包.

使用 SageMaker Python SDK，创建一个Processor使用 SageMaker 澄清容器映像 URI：


from sagemaker import clarify
clarify_processor = clarify.SageMakerClarifyProcessor(role=role,
    instance_count=1,
    instance_type='ml.c5.xlarge',
    max_runtime_in_seconds=1200,
    volume_size_in_gb=100)

完成创建澄清处理器后，需要为处理器设置输入和输出对象。

注意

如果你提供"dataset_uri"通过 “分析 _config.json”（请参阅以下主题配置分析），您无需创建dataset_input对象。


    dataset_path = "s3://my_bucket/my_folder/train.csv"
    analysis_config_path = "s3://my_bucket/my_folder/analysis_config.json"
    analysis_result_path = "s3://my_bucket/my_folder/output"
    
    analysis_config_input = ProcessingInput(
        input_name="analysis_config",
        source=analysis_config_path,
        destination="/opt/ml/processing/input/config",
        s3_data_type="S3Prefix",
        s3_input_mode="File",
        s3_compression_type="None")
    dataset_input = ProcessingInput(
        input_name="dataset",
        source=dataset_path,
        destination="/opt/ml/processing/input/data",
        s3_data_type="S3Prefix",
        s3_input_mode="File",
        s3_compression_type="None")
    analysis_result_output = ProcessingOutput(
        source="/opt/ml/processing/output",
        destination=analysis_result_path,
        output_name="analysis_result",
        s3_upload_mode="EndOfJob")

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

入门：澄清容器

配置分析