本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 scikit-learn 处理数据
要了解演示如何使用 SageMaker 提供和维护的 Docker 映像运行 scikit-learn 脚本以预处理数据和评估模型的示例笔记本,请参阅scikit-learn 处理
这个笔记本运行处理作业SKLearnProcessor来运行您提供的 scikit-learn 脚本。此脚本预处理数据,使用 SageMaker 训练作业训练模型,然后运行处理作业来评估训练的模型。处理作业估计模型在生产中的预期效果。
要了解有关将 SageMaker Python SDK 与处理容器结合使用的更多信息,请参阅SageMaker Python SDK
以下代码示例演示笔记本如何使用。SKLearnProcessor使用 SageMaker 提供和维护的 Docker 映像(而不是您自己的 Docker 映像)运行您自己的 scikit-learn 脚本。
from sagemaker.sklearn.processing import SKLearnProcessor from sagemaker.processing import ProcessingInput, ProcessingOutput sklearn_processor = SKLearnProcessor(framework_version='0.20.0', role=role, instance_type='ml.m5.xlarge', instance_count=1) sklearn_processor.run(code='preprocessing.py', inputs=[ProcessingInput( source='s3://path/to/my/input-data.csv', destination='/opt/ml/processing/input')], outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'), ProcessingOutput(source='/opt/ml/processing/output/validation'), ProcessingOutput(source='/opt/ml/processing/output/test')] )
要使用 Scikit-Learn 在 Amazon SageMaker 处理中并行处理数据,您可以通过设置来按 S3 键对输入对象分片。s3_data_distribution_type='ShardedByS3Key'内ProcessingInput以便每个实例接收大约相同数量的输入对象。