异步推理

Amazon SageMaker 异步推理是 SageMaker 中的一项新功能，可以对传入的请求进行排队并异步处理它们。此选项非常适合具有大负载大小（最多 1GB）、处理时间长（最长 15 分钟）和接近实时延迟要求的请求。异步推理使您能够在没有处理请求时自动将实例计数自动缩放到零来节省成本，因此您只需在终端节点处理请求时付费。

工作方式

创建异步推理端点类似于创建实时推理端点。您可以使用现有的 SageMaker 模型，而且只需指定AsyncInferenceConfig在创建终端节点配置时，请使用EndpointConfig字段中的CreateEndpointConfigAPI。下图演示了异步推理的架构和工作流程。

要调用终端节点，您需要将请求有效负载放在 Amazon S3 中，并提供指向此有效负载的指针作为InvokeEndpointAsync请求. 调用后，SageMaker 将请求排队以进行处理，并返回标识符和输出位置作为响应。处理后，SageMaker 会将结果放置在 Amazon S3 位置。您可以选择使用 Amazon SNS 接收成功或错误通知。有关如何设置异步通知的更多信息，请参阅检查预测结果.

注意

异步推理配置的存在 (AsyncInferenceConfig) 端点配置中的对象意味着终端节点只能接收异步调用。

怎样入门？

如果您是首次接触 Amazon SageMaker 异步推断的用户，我们建议您执行以下操作：

Read创建、调用和更新异步终端节点以获取有关如何创建、调用、更新和删除异步终端节点的信息。
探索异步推理示例笔记本中的aws/亚马逊sagemaker-示例GitHub 存储库。

请注意，如果您的终端节点使用此中列出的任何功能Exclusions页面中，您无法使用异步推理。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

调用实时端节点

创建、调用和更新异步终端节点