本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Checkpointing 已超时
如果您的应用程序未经过优化或未正确配置,则检查点可能会失败。本节介绍此情况的症状和故障排除步骤。
征兆
如果应用程序的检查点失败,numberOfFailedCheckpoints将大于零。
检查点失败的原因可能是直接故障(例如应用程序错误),也可能是由于暂时性故障(例如应用程序资源耗尽)所致。检查应用程序日志和指标以了解以下症状:
您的代码中存在错误。
访问应用程序的依赖服务时出错。
序列化数据时出错。如果默认序列化器无法序列化应用程序数据,则应用程序将失败。有关在应用程序中使用自定义序列化器的信息,请参阅自定义序列化器
中的Apache Flink 文档 . 内存不足错误。
以下指标出现峰值或稳步增长:
heapMemoryUtilizationoldGenerationGCTimeoldGenerationGCCountlastCheckpointSizelastCheckpointDuration
有关监控检查点的更多信息,请参阅监控检查点
原因和解决方案
您的应用程序日志错误消息显示了直接失败的原因。暂时性故障可能有以下原因:
您的应用程序的 KPU 配置不足。有关增加应用程序配置的信息,请参阅扩缩 准备就绪.
应用程序状态大小过大。您可以使用监控应用程序状态大小
lastCheckpointSize指标。应用程序的状态数据在密钥之间分布不均。如果您的应用程序使用
KeyBy操作员,请确保您的传入数据在密钥之间平均分配。如果将大部分数据分配给单个密钥,则会产生瓶颈,从而导致失败。您的应用程序遇到内存或垃圾回收反压。监视你的应用程序的
heapMemoryUtilization、oldGenerationGCTime, 和oldGenerationGCCount用于峰值或稳步增加的值。