将人工循环激活条件 JSON 架构与 Amazon Textract 一起使用 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将人工循环激活条件 JSON 架构与 Amazon Textract 一起使用

与 Amazon A2I 一起使用时,AnalyzeDocument操作支持以下输入:ConditionType参数:

  • ImportantFormKeyConfidenceCheck— 使用此条件可在推理置信度在文档表单键和单词块的指定范围内时创建人工循环。表单键 是文档中与输入关联的任何单词。输入称为。表单键和值一起称为键/值对。一个单词块指 Amazon Textract 在检测到的文本块中识别的单词。要了解有关 Amazon Textract 文档块的更多信息,请参阅文档和阻止对象中的Amazon Textract 开发人员指南.

  • MissingImportantFormKey— 使用此条件可在 Amazon Textract 未在文档中标识键或其关联的别名时创建人工循环。

  • Sampling— 使用此条件指定发送进行人工审核的表单百分比,而不考虑推理置信度得分。使用此条件来执行以下操作:

    • 通过对模型分析的所有表单随机抽样并发送指定百分比的表单进行人工审核,对 ML 模型进行审计。

    • 使用 ImportantFormKeyConfidenceCheck 条件随机抽样满足 ImportantFormKeyConfidenceCheck 中指定的条件的一定百分比的推理以启动人工循环,并仅发送指定的百分比进行人工审核。

注意

如果你将同样的请求发送到AnalyzeDocument多次,结果Sampling不会因为该输入的推断而改变。例如,如果你做了AnalyzeDocument请求一次,然后Sampling不会启动人类循环,随后请求AnalyzeDocument使用相同的配置不会启动人类循环。

ImportantFormKeyConfidenceCheck输入和结果

ImportantFormKeyConfidenceCheck ConditionType 支持以下 ConditionParameters

  • ImportantFormKey— 一个字符串,表示 Amazon Textract 检测到的键/值对中的键,需要人工审核。如果此参数的值是包罗万象的特殊值 (*),则所有键都被视为与条件匹配。您可以使用此项,对满足特定置信度阈值的任何键/值对都需要人工审核的情况进行建模。

  • ImportantFormKeyAliases— 表示重要表单键的替代拼写或逻辑等效物的数组。

  • KeyValueBlockConfidenceEquals

  • KeyValueBlockConfidenceLessThan

  • KeyValueBlockConfidenceLessThanEquals

  • KeyValueBlockConfidenceGreaterThan

  • KeyValueBlockConfidenceGreaterThanEquals

  • WordBlockConfidenceEquals

  • WordBlockConfidenceLessThan

  • WordBlockConfidenceLessThanEquals

  • WordBlockConfidenceGreaterThan

  • WordBlockConfidenceGreaterThanEquals

当您使用ImportantFormKeyConfidenceCheck ConditionType中,Amazon A2I 发送键/值块和键/值块推理和键/值块推理以及您在中指定的关联别名。ImportantFormKeyImportantFormKeyAliases供人类评论。

在创建流程定义时,如果您使用中提供的默认工作人员任务模板人工审核工作流Amazon SageMaker 控制台的部分、按此激活条件发送给人类审查的键值和区块推断都包含在工作人员 UI 中。如果您使用自定义工作人员任务模板,则需要包含{{ task.input.selectedAiServiceResponse.blocks }}元素,包含来自 Amazon Textract 的初始值输入数据(推理)。有关使用此输入元素的自定义模板的示例,请参阅Amazon Textract 的自定义模板示例

MissingImportantFormKey输入和结果

MissingImportantFormKey ConditionType 支持以下 ConditionParameters

  • ImportantFormKey— 一个字符串,表示 Amazon Textract 检测到的键/值对中的键,需要人工审核。

  • ImportantFormKeyAliases— 表示重要表单键的替代拼写或逻辑等效物的数组。

当您使用MissingImportantFormKey ConditionType,如果钥匙进入ImportantFormKey或者中的别名ImportantFormKeyAliases不包含在 Amazon Textract 推理中,将发送表单供人工审核,且不包含任何预测的键/值对。例如,如果 Amazon Textract 仅确定AddressPhone在表格中,但错过了ImportantFormKey Name(在MissingImportantFormKey条件类型)将发送表单供人工审核,而不检测到任何表单键(AddressPhone)。

如果您使用 SageMaker 控制台中提供的默认工作人员任务模板,则会创建一个任务,要求工作人员在中标识中的键。ImportantFormKey以及相关的价值。如果您使用自定义工作人员任务模板,则需要包含 <task.input.humanLoopContext> 自定义 HTML 元素以配置此任务。

采样输入和结果

Sampling ConditionType 现在支持 RandomSamplingPercentage ConditionParametersRandomSamplingPercentage 的输入必须是 0.01 到 100 之间的实数。此数字表示符合人工审核条件并发送进行人工审核的数据百分比。如果您将Sampling在没有任何其他条件的情况下,此数字表示所得出的所有推理中,AnalyzeDocument操作来自发送给人员进行审查的单个请求。

如果您指定 Sampling 条件而没有任何其他条件类型,则所有键/值和块推理都会发送给工作人员审核。

在创建流程定义时,如果您使用中提供的默认工作人员任务模板人工审核工作流SageMaker 控制台的部分,通过此激活条件发送给人类审查的所有键值和区块推断都包含在工作人员 UI 中。如果您使用自定义工作人员任务模板,则需要包含{{ task.input.selectedAiServiceResponse.blocks }}元素,包含来自 Amazon Textract 的初始值输入数据(推理)。有关使用此输入元素的自定义模板的示例,请参阅Amazon Textract 的自定义模板示例

示例

虽然只有一个条件需要评估true为了启动人工循环,亚马逊 A2I 评估 Amazon Textract 分析的每个对象的所有条件。人工审核者需要审查评估到的所有条件的重要表单键。true.

示例 1:在指定范围内使用置信度分数检测重要表单键,以启动人工循环。

以下示例显示了一个HumanLoopActivationConditions如果满足以下三个条件中的任何一个,则启动人工循环:

  • Amazon TextractAnalyzeDocumentAPI 返回键/值对的键/值对,其键为Employee NameName,或者EmployeeName,键/值块的置信度小于 60,组成键和值的每个单词块的置信度小于 85。

  • Amazon TextractAnalyzeDocumentAPI 返回键/值对的键/值对,其键为Pay DatePayDateDateOfPay,或者pay-date,键/值块的置信度小于 65,组成键和值的每个单词块的置信度小于 85。

  • Amazon TextractAnalyzeDocumentAPI 返回键/值对的键/值对,其键为Gross PayGrossPay,或者GrossAmount,键/值块的置信度小于 60,组成键和值的每个单词块的置信度小于 85。

{ "Conditions": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Employee Name", "ImportantFormKeyAliases": [ "Name", "EmployeeName" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 85 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Gross Pay", "ImportantFormKeyAliases": [ "GrossPay", "GrossAmount" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 85 } } ] }

示例 2:使用 ImportantFormKeyConfidenceCheck

在以下示例中,如果 Amazon Textract 检测到一个键值对,其键/值块的置信度小于 60,并且任何基础单词块的置信度小于 90,则会创建人工循环。人工审查者被要求审查与置信值比较公式匹配的所有表单键值对。

{ "Conditions": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "*" "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 90 } } ] }

示例 3:使用采样

在以下示例中,5% 的推理是由 Amazon Textract 得出的AnalyzeDocument请求将发送给人类工作人员进行审查。Amazon Textract 返回的所有检测到的键/值对都将发送给工作人员以供审核。

{ "Conditions": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } } ] }

示例 4:使用 MissingImportantFormKey

在以下示例中,如果Mailing Address或者它的别名,Mailing Address:,在 Amazon Textract 检测到的键中缺少,启动人工审核。在使用默认工作人员任务模板时,工作人员 UI 将要求工作人员标识键 Mailing AddressMailing Address: 及其关联值。

{ "ConditionType": "MissingImportantFormKey", "ConditionParameters": { "ImportantFormKey": "Mailing Address", "ImportantFormKeyAliases": ["Mailing Address:"] } }

示例 5:使用采样和ImportantFormKeyConfidenceCheck使用And操作者

在此示例中,Amazon Textract 检测到的密钥值对中有 5%,其密钥是Pay DatePayDateDateOfPay,或者pay-date对于键/值块的置信度小于 65,组成键和值的每个单词块的置信度小于 85,则发送给工作人员进行审核。

{ "Conditions": [ { "And": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } } ] } ] }

示例 6:使用采样和ImportantFormKeyConfidenceCheck使用And操作者

使用此示例可以配置人工审核工作流,始终将指定键/值对的低置信度推理发送进行人工审核,并按指定比率抽样键/值对的高置信度推理。

在以下示例中,通过以下方式之一启动人工审核:

  • 检测到哪个密钥是其中之一的键值对Pay DatePayDateDateOfPay,或者pay-date对于键/值和单词块置信度小于 60,则会发送供人工审核。仅将 Pay Date 表单键(及其别名)和关联值发送给工作人员进行审查。

  • 5% 的键值对检测到哪些密钥是其中之一Pay DatePayDateDateOfPay,或者pay-date,键/值和单词块置信度大于 90,将发送供人工审核。仅将 Pay Date 表单键(及其别名)和关联值发送给工作人员进行审查。

{ "Conditions": [ { "Or": [ { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 60, "WordBlockConfidenceLessThan": 60 } }, { "And": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 90 "WordBlockConfidenceGreaterThan": 90 } } ] } ] } ] }

示例 7:使用采样和ImportantFormKeyConfidenceCheck使用Or操作者

在下面的示例中,Amazon TextractAnalyzeDocument操作返回键/值对的键/值对,其键为Pay DatePayDateDateOfPay,或者pay-date,键/值块的置信度小于 65,组成键和值的每个单词块的置信度小于 85。此外,所有其他表单中有 5% 的表单启动了人工循环。对于随机选择的每个表单,为该表单检测到的所有键/值对都会发送给人工审核。

{ "Conditions": [ { "Or": [ { "ConditionType": "Sampling", "ConditionParameters": { "RandomSamplingPercentage": 5 } }, { "ConditionType": "ImportantFormKeyConfidenceCheck", "ConditionParameters": { "ImportantFormKey": "Pay Date", "ImportantFormKeyAliases": [ "PayDate", "DateOfPay", "pay-date" ], "KeyValueBlockConfidenceLessThan": 65, "WordBlockConfidenceLessThan": 85 } } } ] } ] }