本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
自动数据设置
您可以使用自动数据设置,在 Ground Truth 控制台中,使用图像、视频、视频框架、文本 (.txt) 文件和存储在 Amazon S3 中的逗号分隔值 (.csv) 文件为标记作业创建清单文件。使用自动数据设置时,您可以指定存储输入数据的 Amazon S3 位置和输入数据类型,Ground Truth 会在指定位置中查找与该类型匹配的文件。
Ground Truth 不使用Amazon KMS键可访问输入数据或在您指定的 Amazon S3 位置写入输入清单文件。创建标签作业的 IAM 用户或角色必须具有访问 Amazon S3 中输入数据对象的权限。
在使用以下过程之前,请确保输入图像或文件的格式正确:
-
图像文件 — 图像文件必须遵守中的表列出的大小和分辨率限制。输入文件大小限制.
-
文本文件 — 文本数据可以存储在一个或多个 .txt 文件中。要标记的每个项目必须用标准换行符分隔。
-
CSV 文件 — 文本数据可以存储在一个或多个 .csv 文件中。要标记的每个项目必须位于单独的行中。
-
视频 — 视频文件可以是以下任意格式:.mp4、.ogg 和 .webm。如果要从视频文件中提取视频帧以进行对象检测或对象跟踪,请参阅提供视频文件.
-
视频帧 — 视频帧是从视频中提取的图像。从单个视频中提取的所有图像都称为视频帧序列. 在 Amazon S3 中,每个视频帧序列必须具有唯一的前缀键。请参阅 提供视频帧。有关此数据类型,请参阅自动视频帧输入数据设置
有关视频帧对象检测和视频帧对象跟踪标记作业,请参阅自动视频帧输入数据设置了解如何使用自动化数据设置。
使用这些说明自动设置与 Ground Truth 的输入数据集连接。
使用 Ground Truth 自动连接 Amazon S3 中的数据
-
导航到创建标记作业在位于的 Amazon SageMaker 控制台中的页面https://console.aws.amazon.com/sagemaker/
. 此链接将您带到弗吉尼亚北部(us-east-1)Amazon区域。如果您的输入数据位于另一个区域的 Amazon S3 存储桶中,请切换到该区域。更改您的Amazon地区,在导航栏中,选择当前显示区域的名称。
-
Select创建标记作业.
-
输入 Job name(任务名称)。
-
在部分中输入数据设置,请选择自动化数据设置.
-
输入 Amazon S3 URI输入数据集的 S3 位置.
-
指定您的输出数据集的 S3 位置. 这是存储输出数据的地方。
-
选择您的数据类型使用下拉列表。
-
使用下拉菜单IAM 角色以选择执行角色。如果您选择创建新角色中,指定您希望授予此角色访问权限的 Amazon S3 存储桶。此角色必须有权访问您在步骤 5 和步骤 6 中指定的 S3 存储桶。
-
Select完成数据设置.
这将在 Amazon S3 位置为您在步骤 5 中指定的输入数据集创建输入清单。如果要使用 SageMaker API 创建标记作业,或者Amazon CLI,或者AmazonSDK,使用此输入清单文件的 Amazon S3 URI 作为参数的输入ManifestS3Uri.
以下 GIF 演示了如何将自动化数据设置用于图像数据。这个例子将创建一个文件,dataset-在 Amazon S3 存储桶中YYMMDDTHHMMSS.manifestexample-groundtruth-images哪里表示年份(YYMMDDTHHmmSSYY)、月 (MM)、1 天 (DD) 和时间(以小时为单位)HH)、分钟 (mm) 和秒 (ss),输入清单文件已创建。