请求异常失败及延迟抖动问题排查
问题背景
由于在项目初建时没有比较适合的可以方便部署于 k8s 下的 GRPC 网关,我们的项目中使用 OpenResty 搭建了一套GRPC的API-Gateway,用于接入现有的模调、鉴权等功能。同时扩展了限流、配置热加载等特性。
随着业务量的上涨,在某天开始陆续发现接入的请求延迟会在某些时刻有所抖动,伴随着一段时间内的失败率陡增,持续时间不定,也没有与请求量表现出强相关的特征(问题出现的时刻不一定是业务最高峰的时刻)。
由于在项目初建时没有比较适合的可以方便部署于 k8s 下的 GRPC 网关,我们的项目中使用 OpenResty 搭建了一套GRPC的API-Gateway,用于接入现有的模调、鉴权等功能。同时扩展了限流、配置热加载等特性。
随着业务量的上涨,在某天开始陆续发现接入的请求延迟会在某些时刻有所抖动,伴随着一段时间内的失败率陡增,持续时间不定,也没有与请求量表现出强相关的特征(问题出现的时刻不一定是业务最高峰的时刻)。