本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
StartTranscriptionJob
转录媒体文件中的音频,并应用您选择包含在请求中的任何其他请求参数。
TP AD OFStartTranscriptionJob请求,您必须先将媒体文件上传到 Amazon S3 存储桶中;然后您可以使用指定该文件的 Amazon S3 位置Media参数。
您必须将以下参数包含在StartTranscriptionJob请求
-
region: 该Amazon Web Services 区域你在哪里提出请求。对于是必需的Amazon Web Services 区域受Amazon Transcribe 支持,请参阅Amazon Transcribe 终端节点和配额. -
TranscriptionJobName:您为转录作业创建的自定义名称,该名称在您的Amazon Web Services 账户. -
Media(MediaFileUri): 您的媒体文件的 Amazon S3 位置。 -
对于是必需的
LanguageCode、IdentifyLanguage,或者IdentifyMultipleLanguages:如果您知道媒体文件的语言,请使用LanguageCodeparameter;你可以在支持的语言表。如果您不了解媒体中使用的语言,请使用IdentifyLanguage要么IdentifyMultipleLanguages并让 Amazon Transcribe 为您识别语言。
请求语法
{
"ContentRedaction": {
"PiiEntityTypes": [ "string" ],
"RedactionOutput": "string",
"RedactionType": "string"
},
"IdentifyLanguage": boolean,
"IdentifyMultipleLanguages": boolean,
"JobExecutionSettings": {
"AllowDeferredExecution": boolean,
"DataAccessRoleArn": "string"
},
"KMSEncryptionContext": {
"string" : "string"
},
"LanguageCode": "string",
"LanguageIdSettings": {
"string" : {
"LanguageModelName": "string",
"VocabularyFilterName": "string",
"VocabularyName": "string"
}
},
"LanguageOptions": [ "string" ],
"Media": {
"MediaFileUri": "string",
"RedactedMediaFileUri": "string"
},
"MediaFormat": "string",
"MediaSampleRateHertz": number,
"ModelSettings": {
"LanguageModelName": "string"
},
"OutputBucketName": "string",
"OutputEncryptionKMSKeyId": "string",
"OutputKey": "string",
"Settings": {
"ChannelIdentification": boolean,
"MaxAlternatives": number,
"MaxSpeakerLabels": number,
"ShowAlternatives": boolean,
"ShowSpeakerLabels": boolean,
"VocabularyFilterMethod": "string",
"VocabularyFilterName": "string",
"VocabularyName": "string"
},
"Subtitles": {
"Formats": [ "string" ],
"OutputStartIndex": number
},
"Tags": [
{
"Key": "string",
"Value": "string"
}
],
"TranscriptionJobName": "string"
}
请求参数
有关所有操作的通用参数的信息,请参阅常见参数.
请求接受采用 JSON 格式的以下数据。
- ContentRedaction
-
注意 并非所有区域都支持密文。
使您能够编辑或标记转录中指定的个人身份信息 (PII)。如果您使用
ContentRedaction,则还必须包含以下子参数:PiiEntityTypes、RedactionOutput, 和RedactionType.类型:ContentRedaction 对象
必需 否
- IdentifyLanguage
-
注意 并非所有区域都支持语言识别。
在您的转录作业请求中启用自动语言识别。如果媒体文件仅包含一种语言,请使用此参数。如果您的媒体包含多种语言,请使用
IdentifyMultipleLanguages相反。如果你包括
IdentifyLanguage,您可以选择包含语言代码的列表,使用LanguageOptions,你认为可能存在于你的媒体文件中。INCPLanguageOptions限制IdentifyLanguage仅限于您指定的语言选项,这样可以提高转录的准确性。如果要将自定义语言模型、自定义词汇表或自定义词汇筛选器应用于自动语言识别请求,请包括
LanguageIdSettings使用相关的子参数(VocabularyName、LanguageModelName, 和VocabularyFilterName)。如果你包括LanguageIdSettings,还包括LanguageOptions.请注意,您必须包含以下参数:
LanguageCode、IdentifyLanguage,或者IdentifyMultipleLanguages在您的请求中。如果您包含多个参数,则您的转录作业将失败。类型: 布尔值
必需 否
- IdentifyMultipleLanguages
-
注意 并非所有区域都支持语言识别。
在您的转录作业请求中启用自动多语言识别。如果媒体文件包含多种语言,请使用此参数。如果您的媒体只包含一种语言,请使用
IdentifyLanguage相反。如果你包括
IdentifyMultipleLanguages,您可以选择包含语言代码的列表,使用LanguageOptions,你认为可能存在于你的媒体文件中。INCPLanguageOptions限制IdentifyLanguage仅限于您指定的语言选项,这样可以提高转录的准确性。如果要将自定义词汇表或自定义词汇过滤器应用于自动语言识别请求,请包括
LanguageIdSettings使用相关的子参数(VocabularyName和VocabularyFilterName)。如果你包括LanguageIdSettings,还包括LanguageOptions.请注意,您必须包含以下参数:
LanguageCode、IdentifyLanguage,或者IdentifyMultipleLanguages在您的请求中。如果您包含多个参数,则您的转录作业将失败。类型: 布尔值
必需 否
- JobExecutionSettings
-
可以控制转录作业的处理方式。目前,唯一的
JobExecutionSettings您可以选择的修改是使用启用作业队列AllowDeferredExecution子参数。如果你包括
JobExecutionSettings在您的请求中,您还必须包含以下子参数:AllowDeferredExecution和DataAccessRoleArn.类型:JobExecutionSettings 对象
必需 否
- KMSEncryptionContext
-
纯文本、非机密 key: value 对(称为加密上下文对)的映射,可为您的数据提供额外的安全层。有关更多信息,请参阅 。Amazon KMS加密上下文和中的非对密密密密密钥Amazon KMS.
类型: 字符串到字符串映射
地图条目:最多 10 项。
键长度限制:最小长度为 1。最大长度为 2000。
密钥模式:
.*\S.*值长度限制:最小长度为 1。最大长度为 2000。
价值模式
.*\S.*必需 否
- LanguageCode
-
表示输入媒体文件中使用的语言代码的输入媒体文件。
如果您不确定媒体文件中使用的语言,可以考虑使用
IdentifyLanguage要么IdentifyMultipleLanguages启用自动语言识别。请注意,您必须包含以下参数:
LanguageCode、IdentifyLanguage,或者IdentifyMultipleLanguages在您的请求中。如果您包含多个参数,则您的转录作业将失败。有关受支持的语言及其关联的语言代码的列表,请参阅支持的语言表。
注意 要用现代标准阿拉伯语转录语音 (
ar-SA),您的媒体文件必须以 16,000 Hz 或更高的采样率进行编码。类型: 字符串
有效值:
af-ZA | ar-AE | ar-SA | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ必需 否
- LanguageIdSettings
-
如果在请求中使用自动语言识别,并且您想要应用自定义语言模型、自定义词汇表或自定义词汇过滤器,请包括
LanguageIdSettings使用相关的子参数(VocabularyName、LanguageModelName, 和VocabularyFilterName)。请注意,多语言识别 (IdentifyMultipleLanguages) 不支持自定义语言模型。LanguageIdSettings支持两到五种语言代码。您包含的每种语言代码都可以有一个关联的自定义语言模型、自定义词汇表和自定义词汇过滤器。您指定的语言代码必须与关联的自定义语言模型、自定义词汇表和自定义词汇过滤器的语言相匹配。建议你包括
LanguageOptions使用时LanguageIdSettings以确保识别正确的语言方言。例如,如果您指定的自定义词汇表位于en-US但是 Amazon Transcribe 会确定您的媒体所说的语言是en-AU,你的自定义词汇不是应用于你的转录。如果你包括LanguageOptions并加入en-US作为唯一的英语方言,你的自定义词汇是应用于你的转录。如果您想在请求中包含自定义语言模型,但是不需想要使用自动语言识别,请改用
ModelSettingsParameter 参数LanguageModelName子参数。如果您想在请求中包含自定义词汇表或自定义词汇过滤器(或两者),但是不需想要使用自动语言识别,请改用SettingsParameter 参数VocabularyName要么VocabularyFilterName(或两者兼而有之)子参数。类型: 字符串LanguageIdSettings物体映射
地图条目:最少 5 项。
有效密钥:
af-ZA | ar-AE | ar-SA | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ必需 否
- LanguageOptions
-
您可以指定两个或多个语言代码来表示您认为媒体中可能存在的语言。不建议包含超过五个。如果您不确定存在哪些语言,请不要包含此参数。
如果你包括
LanguageOptions在您的请求中,您还必须包括IdentifyLanguage.有关更多信息,请参阅支持的语言.
要用现代标准阿拉伯语转录语音 (
ar-SA),您的媒体文件必须以 16,000 Hz 或更高的采样率进行编码。类型: 字符串数组
数数数数 最少 1 项。
有效值:
af-ZA | ar-AE | ar-SA | da-DK | de-CH | de-DE | en-AB | en-AU | en-GB | en-IE | en-IN | en-US | en-WL | es-ES | es-US | fa-IR | fr-CA | fr-FR | he-IL | hi-IN | id-ID | it-IT | ja-JP | ko-KR | ms-MY | nl-NL | pt-BR | pt-PT | ru-RU | ta-IN | te-IN | tr-TR | zh-CN | zh-TW | th-TH | en-ZA | en-NZ必需 否
- Media
-
描述您要在请求中使用的媒体文件的 Amazon S3 位置。
类型:Media 对象
必需 是
- MediaFormat
-
指定输入媒体文件的格式。
类型: 字符串
有效值:
mp3 | mp4 | wav | flac | ogg | amr | webm必需 否
- MediaSampleRateHertz
-
该示例(单位:赫兹)为输入媒体文件的音频。
如果未指定媒体采样率,Amazon Transcribe 将为您确定媒体采样率。如果您指定采样率,它必须与 Amazon Transcribe 检测到的速率相匹配。如果指定的值与检测到的值不匹配,则作业将失败。在大部分情况下,您可以省略
MediaSampleRateHertz并让Amazon Transcribe 确定采样率。类型: 整数
有效范围 最小值为 8000。最大值为 4000。
必需 否
- ModelSettings
-
指定要包含在转录作业中的自定义语言模型。如果你包括
ModelSettings在您的请求中,您必须包括LanguageModelName子参数。有关更多信息,请参阅 。自定义语言模型.
类型:ModelSettings 对象
必需 否
- OutputBucketName
-
您要存储转录输出的 Amazon S3 存储桶的名称。请勿加入
S3://指定存储桶的前缀。如果您希望输出到此存储桶的子文件夹,请使用
OutputKey参数OutputBucketName只接受存储桶的名称。例如,如果你想将输出存储在
S3://DOC-EXAMPLE-BUCKET,设置OutputBucketName到DOC-EXAMPLE-BUCKET. 但是,如果你想将输出存储在S3://DOC-EXAMPLE-BUCKET/test-files/,设置OutputBucketName到DOC-EXAMPLE-BUCKET和OutputKey到test-files/.请注意,Amazon Transcribe 必须拥有使用指定位置的权限。您可以使用更改 Amazon S3 权限Amazon Web Services Management Console
. 另请参阅IAM 用户角色所需的权限. 如果您没有指定
OutputBucketName,您的成绩单将被放置在服务托管的 Amazon S3 存储桶中,并向您提供一个用于访问您的脚本的 URI。类型: 字符串
长约束 最大长度为 64。
模式:
[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9]必需 否
- OutputEncryptionKMSKeyId
-
您要用于加密转录输出的 KMS 密钥。
如果使用位于当前的 Amazon Web Services 账户,您可以采用以下四种方法之一指定 KMS 密钥:
-
使用 KMS 密钥 ID 本身。例如,
1234abcd-12ab-34cd-56ef-1234567890ab。 -
使用 KMS 密钥 ID 的别名。例如,
alias/ExampleAlias。 -
使用亚马逊资源名称 (ARN) 作为 KMS 密钥 ID。例如,
arn:aws:kms:region:account-ID:key/1234abcd-12ab-34cd-56ef-1234567890ab。 -
使用 ARN 作为 KMS 密钥别名。例如,
arn:aws:kms:region:account-ID:alias/ExampleAlias。
如果使用位于不同的 Amazon Web Services 账户比当前Amazon Web Services 账户,您可以采用以下两种方法之一指定 KMS 密钥:
-
使用 ARN 作为 KMS 密钥 ID。例如,
arn:aws:kms:region:account-ID:key/1234abcd-12ab-34cd-56ef-1234567890ab。 -
使用 ARN 作为 KMS 密钥别名。例如,
arn:aws:kms:region:account-ID:alias/ExampleAlias。
如果未指定加密密钥,则将使用默认 Amazon S3 密钥 (SSE-S3) 对输出进行加密。
如果您指定 KMS 密钥来加密输出,则还必须使用
OutputLocation参数。请注意,用户制作了StartCallAnalyticsJob请求必须拥有使用指定 KMS 密钥的权限。
类型: 字符串
长约束 最小长度为 1。长度上限为 2048。
模式:
^[A-Za-z0-9][A-Za-z0-9:_/+=,@.-]{0,2048}$必需 否
-
- OutputKey
-
配合使用
OutputBucketName指定脚本的输出位置,以及输出文件的唯一名称(可选)。转录输出的默认名称与您为转录作业指定的名称相同(TranscriptionJobName)。以下是说明如何使用
OutputKey:-
如果你指定 'DOC-EXAMPLE-BUCKET' 作为
OutputBucketName和 “my-transcript.json” 作为OutputKey,你的转录输出路径是s3://DOC-EXAMPLE-BUCKET/my-transcript.json. -
如果你指定 'my-first-transcription'作为
TranscriptionJobName,“DOC-EXAMPLE-BUCKET” 作为OutputBucketName,并将 “我的成绩单” 作为OutputKey,你的转录输出路径是s3://DOC-EXAMPLE-BUCKET/my-transcript/my-first-transcription.json. -
如果你指定 'DOC-EXAMPLE-BUCKET' 作为
OutputBucketName并将 “test-files/my-transcript.json”OutputKey,你的转录输出路径是s3://DOC-EXAMPLE-BUCKET/test-files/my-transcript.json. -
如果你指定 'my-first-transcription'作为
TranscriptionJobName,“DOC-EXAMPLE-BUCKET” 作为OutputBucketName,并将 “测试文件/我的成绩单” 作为OutputKey,你的转录输出路径是s3://DOC-EXAMPLE-BUCKET/test-files/my-transcript/my-first-transcription.json.
如果您指定不存在的 Amazon S3 存储桶子文件夹的名称,则会为您创建一个子文件夹。
类型: 字符串
长约束 最小长度为 1。长度上限为 1024。
模式:
[a-zA-Z0-9-_.!*'()/]{1,1024}$必需 否
-
- Settings
-
在中指定其他可选设置StartTranscriptionJob请求,包括频道识别、替代转录、扬声器标签。你可以用它来应用自定义词汇表和词汇过滤器。
如果您想在请求中包含自定义词汇表或自定义词汇过滤器(或两者),但是不需想要使用自动语言识别,使用
Settings用VocabularyName要么VocabularyFilterName(或两者兼而有之)子参数。如果您在请求中使用自动语言识别,并且想要包含自定义语言模型、自定义词汇表或自定义词汇过滤器,请改用
LanguageIdSettingsParameter 参数LanguageModelName、VocabularyName要么VocabularyFilterName子参数。类型:Settings 对象
必需 否
- Subtitles
-
为您的输入媒体生成字幕文件。你可以指定 WebVTT (*.vtt) 和 SubRip (*.srt) 格式。
类型:Subtitles 对象
必需 否
- Tags
-
在您开始此新作业时,将一个或多个自定义标签添加到新的转录作业中,每个标签均采用 key: value 对的形式。
要了解有关使用 Amazon Transcribe 中标签的更多信息,请参阅为资源添加标签.
类型: 数数数数数Tag对象
数数数数 最少 1 项。最多 200 项。
必需 否
- TranscriptionJobName
-
由您为转录工作选择的唯一名称。您指定的名称也用作转录输出文件的默认名称。如果您要为转录输出指定其他名称,请使用
OutputKey参数。此名称区分大小写,不能包含空格,并且在Amazon Web Services 账户. 如果您尝试创建与现有作业具有相同名称的新作业,则会获得
ConflictException错误消息。类型: 字符串
长约束 最小长度为 1。最大长度为 200。
模式:
^[0-9a-zA-Z._-]+必需 是
响应语法
{
"TranscriptionJob": {
"CompletionTime": number,
"ContentRedaction": {
"PiiEntityTypes": [ "string" ],
"RedactionOutput": "string",
"RedactionType": "string"
},
"CreationTime": number,
"FailureReason": "string",
"IdentifiedLanguageScore": number,
"IdentifyLanguage": boolean,
"IdentifyMultipleLanguages": boolean,
"JobExecutionSettings": {
"AllowDeferredExecution": boolean,
"DataAccessRoleArn": "string"
},
"LanguageCode": "string",
"LanguageCodes": [
{
"DurationInSeconds": number,
"LanguageCode": "string"
}
],
"LanguageIdSettings": {
"string" : {
"LanguageModelName": "string",
"VocabularyFilterName": "string",
"VocabularyName": "string"
}
},
"LanguageOptions": [ "string" ],
"Media": {
"MediaFileUri": "string",
"RedactedMediaFileUri": "string"
},
"MediaFormat": "string",
"MediaSampleRateHertz": number,
"ModelSettings": {
"LanguageModelName": "string"
},
"Settings": {
"ChannelIdentification": boolean,
"MaxAlternatives": number,
"MaxSpeakerLabels": number,
"ShowAlternatives": boolean,
"ShowSpeakerLabels": boolean,
"VocabularyFilterMethod": "string",
"VocabularyFilterName": "string",
"VocabularyName": "string"
},
"StartTime": number,
"Subtitles": {
"Formats": [ "string" ],
"OutputStartIndex": number,
"SubtitleFileUris": [ "string" ]
},
"Tags": [
{
"Key": "string",
"Value": "string"
}
],
"Transcript": {
"RedactedTranscriptFileUri": "string",
"TranscriptFileUri": "string"
},
"TranscriptionJobName": "string",
"TranscriptionJobStatus": "string"
}
}
响应元素
如果此操作成功,则该服务将会发送回 HTTP 200 响应。
服务以 JSON 格式返回的以下数据。
- TranscriptionJob
-
提供有关当前转录作业的详细信息,包括作业状态和失败原因(如果适用)。
类型:TranscriptionJob 对象
错误
有关所有操作共有的错误的信息,请参阅常见错误.
- BadRequestException
-
您的请求未通过一项或多项验证测试。当您尝试删除的实体不存在或处于非终端状态(例如
IN PROGRESS)。有关更多信息,请参阅 “异常消息” 字段。HTTP 状态代码代码代码代码代码 400
- ConflictException
-
已存在具有此名称的资源。资源名称必须唯一Amazon Web Services 账户.
HTTP 状态代码代码代码代码代码 400
- InternalFailureException
-
发生内部服务器错误。检查错误消息并更正问题,然后重试发送您的请求。
HTTP 状态代码代码代码代码代码 500
- LimitExceededException
-
您已经发送过多的请求或您的输入文件太长。等待,然后再重试发送您的请求,或使用较小的文件,然后重试发送您的请求。
HTTP 状态代码代码代码代码代码 400
另请参阅
有关在特定语言的 Amazon 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: