访问训练数据

创建训练作业时，您可以指定训练数据集的位置以及用于访问该数据的输入模式。对于数据位置，根据输入模式，Amazon SageMaker 支持 Amazon Simple Storage Service (Amazon S3)、Amazon Elastic File System (Amazon EFS) 和 Amazon FSx for Lustre。输入模式决定在培训作业开始时是流式传输还是下载数据。

输入模式

File (文件)模式向训练容器显示数据集的文件系统视图。数据源可以是 Amazon S3 或 Amazon EFS 和 Amazon FSx 远程文件系统。

File (文件)模式将训练数据从存储位置下载到 Docker 容器的本地目录。训练在完整数据集下载完毕后开始。
管道模式直接从 Amazon S3 数据源流式传输数据。流式传输可以提供比启动时间和更好的吞吐量File模式。

直接流式传输数据时，您可以减小培训实例使用的 Amazon EBS 卷的大小。Pipe模式只需要足够的磁盘空间来存储最终模型构件。
快速文件模式允许文件系统访问 Amazon S3 数据源，同时利用Pipe模式。在训练开始时，FastFile模式标识数据文件但不下载它们。训练可以在不等待整个数据集下载的情况下开始。如果提供的 Amazon S3 前缀中的文件较少，启动时间会缩短。

与此相反Pipe模式，FastFile模式适用于随机访问数据。但是，按顺序读取数据时效果最佳。FastFile模式不支持增强清单文件。

有关更多信息，请参阅。Amazon SageMaker 如何提供训练信息，CreateTrainingJobAPI 和TrainingInputMode在AlgorithmSpecification.

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

增量训练

托管的 Spot 训练