本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用输入清单文件
输入清单文件中的每一行都是包含要标签的对象或对象的引用的条目。条目还可以包含来自之前作业的标签,对于某些任务类型,还可以包含其他信息
输入数据和清单文件必须存储在 Amazon Simple Storage Service (Amazon S3) 中。它们具有特定的存储和访问要求,如下所示:
-
包含输入数据的 Amazon S3 存储桶必须位于同一位置。Amazon您运行 Amazon SageMaker Ground Truth 的地区。您必须授予 Amazon SageMaker 对存储在 Amazon S3 存储桶中的数据的访问权限,以便读取数据。有关 Amazon S3 存储桶的更多信息,请参阅使用 Amazon S3 存储桶.
-
清单文件必须位于同一位Amazon区域与数据文件一样,但不需要与数据文件位于同一位置。它可以存储在任何 Amazon S3 存储桶中,该存储桶可由Amazon Identity and Access Management在您创建标记作业时分配给 Ground Truth 的 (IAM) 角色。
清单是一个 UTF-8 编码的文件,其中每行都是完整且有效的 JSON 对象。每行都以标准换行符 \n 或 \r\n 分隔。由于每行都必须是有效的 JSON 对象,因此您不能使用未转义的换行符。有关数据格式的更多信息,请参阅 JSON 行。
清单文件中的每个 JSON 对象不得超过 100,000 个字符。对象中的任何单个属性都不能超过 20,000 个字符。属性名称不能以 $(美元符号)开头。
清单文件中的每个 JSON 对象必须包含以下键之一:source-ref 或 source。密钥的值说明如下:
-
source-ref— 对象的源是在密钥值中指定的 Amazon S3 对象。当对象是二进制对象(如图像)时使用此值。 -
source— 对象的源是密钥值。当对象为文本值时使用此值。
以下是 Amazon S3 存储桶中存储的文件的清单文件示例。
{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}
使用source-ref用于边界框、图像分类(单标签和多标签)、语义分割和视频分类标记作业的视频剪辑的图像文件的键。3D 点云和视频帧标签作业还使用source-refkey 但是这些标签作业需要输入清单文件中的其他信息。有关更多信息,请参阅3D 点云输入数据和视频帧输入数据.
下面是一个含有输入数据(存储在清单中)的清单文件示例:
{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}
使用source键用于单标签和多标签文本分类以及命名实体识别标记作业。
您可以在清单文件中包括其他密钥值对。这些对将传递到输出文件且保持不变。当您希望在应用程序之间传递信息时,此方法很有用。有关更多信息,请参阅 输出数据。