使用 scikit-learn 处理数据

要了解演示如何使用 SageMaker 提供和维护的 Docker 映像运行 scikit-learn 脚本以预处理数据和评估模型的示例笔记本，请参阅scikit-learn 处理. 要使用此笔记本，您需要安装适用于处理的 SageMaker Python 开发工具包。

这个笔记本运行处理作业SKLearnProcessor来运行您提供的 scikit-learn 脚本。此脚本预处理数据，使用 SageMaker 训练作业训练模型，然后运行处理作业来评估训练的模型。处理作业估计模型在生产中的预期效果。

要了解有关将 SageMaker Python SDK 与处理容器结合使用的更多信息，请参阅SageMaker Python SDK.

以下代码示例演示笔记本如何使用。SKLearnProcessor使用 SageMaker 提供和维护的 Docker 映像（而不是您自己的 Docker 映像）运行您自己的 scikit-learn 脚本。


from sagemaker.sklearn.processing import SKLearnProcessor
from sagemaker.processing import ProcessingInput, ProcessingOutput

sklearn_processor = SKLearnProcessor(framework_version='0.20.0',
                                     role=role,
                                     instance_type='ml.m5.xlarge',
                                     instance_count=1)

sklearn_processor.run(code='preprocessing.py',
                      inputs=[ProcessingInput(
                        source='s3://path/to/my/input-data.csv',
                        destination='/opt/ml/processing/input')],
                      outputs=[ProcessingOutput(source='/opt/ml/processing/output/train'),
                               ProcessingOutput(source='/opt/ml/processing/output/validation'),
                               ProcessingOutput(source='/opt/ml/processing/output/test')]
                     )

要使用 Scikit-Learn 在 Amazon SageMaker 处理中并行处理数据，您可以通过设置来按 S3 键对输入对象分片。s3_data_distribution_type='ShardedByS3Key'内ProcessingInput以便每个实例接收大约相同数量的输入对象。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 Apache Spark 的数据处理

使用框架处理器处理数据