本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
访问训练数据
创建训练作业时,您可以指定训练数据集的位置以及用于访问该数据的输入模式。对于数据位置,根据输入模式,Amazon SageMaker 支持 Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS) 和 Amazon FSx for Lustre。输入模式决定在培训作业开始时是流式传输还是下载数据。
输入模式
-
File (文件)模式向训练容器显示数据集的文件系统视图。数据源可以是 Amazon S3 或 Amazon EFS 和 Amazon FSx 远程文件系统。
File (文件)模式将训练数据从存储位置下载到 Docker 容器的本地目录。训练在完整数据集下载完毕后开始。
-
管道模式直接从 Amazon S3 数据源流式传输数据。流式传输可以提供比启动时间和更好的吞吐量
File模式。直接流式传输数据时,您可以减小培训实例使用的 Amazon EBS 卷的大小。
Pipe模式只需要足够的磁盘空间来存储最终模型构件。 -
快速文件模式允许文件系统访问 Amazon S3 数据源,同时利用
Pipe模式。在训练开始时,FastFile模式标识数据文件但不下载它们。训练可以在不等待整个数据集下载的情况下开始。如果提供的 Amazon S3 前缀中的文件较少,启动时间会缩短。与此相反
Pipe模式,FastFile模式适用于随机访问数据。但是,按顺序读取数据时效果最佳。FastFile模式不支持增强清单文件。
有关更多信息,请参阅 。Amazon SageMaker 如何提供训练信息,CreateTrainingJobAPI 和TrainingInputMode在AlgorithmSpecification.