异步推理 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

异步推理

Amazon SageMaker 异步推理是 SageMaker 中的一项新功能,可以对传入的请求进行排队并异步处理它们。此选项非常适合具有大负载大小(最多 1GB)、处理时间长(最长 15 分钟)和接近实时延迟要求的请求。异步推理使您能够在没有处理请求时自动将实例计数自动缩放到零来节省成本,因此您只需在终端节点处理请求时付费。

工作方式

创建异步推理端点类似于创建实时推理端点。您可以使用现有的 SageMaker 模型,而且只需指定AsyncInferenceConfig在创建终端节点配置时,请使用EndpointConfig字段中的CreateEndpointConfigAPI。下图演示了异步推理的架构和工作流程。


                异步推理的架构图,显示用户如何调用终端节点以及终端节点的响应方式。

要调用终端节点,您需要将请求有效负载放在 Amazon S3 中,并提供指向此有效负载的指针作为InvokeEndpointAsync请求. 调用后,SageMaker 将请求排队以进行处理,并返回标识符和输出位置作为响应。处理后,SageMaker 会将结果放置在 Amazon S3 位置。您可以选择使用 Amazon SNS 接收成功或错误通知。有关如何设置异步通知的更多信息,请参阅检查预测结果.

注意

异步推理配置的存在 (AsyncInferenceConfig) 端点配置中的对象意味着终端节点只能接收异步调用。

怎样入门?

如果您是首次接触 Amazon SageMaker 异步推断的用户,我们建议您执行以下操作:

请注意,如果您的终端节点使用此中列出的任何功能Exclusions页面中,您无法使用异步推理。