当前位置: 首页 > news >正文

pod启动后一直containerCreating状态解决

更新容器镜像的时候,经常遇到遇到pod一直卡住在containerCreating状态,检查该pod的事件信息,

显示pod一直在pulling镜像,即pod的创建阻塞在拉取镜像到节点的过程中。

image

 

出现上述问题的pod,在uat测试环境和prod生产环境2个集群都有出现。

检查pod有关事件,发现该pod从调度成功到报错ErrImagePull,中间有2个多小时,且事件显示**Failed to pull image xxx,pull QPS exceed**

分析pull QPS exceed代码,判断kubelet默认串行拉取镜像的(现在的默认策略),

串行也会走到 pull QPS exceeded 这个报错,也就是只有可能有其它镜像拉取的时候卡住了,才导致这么慢的。

image

 

即kubelet拉取镜像是串行的,上一个拉取任务未结束不会继续下一个,目前怀疑如下可能:

1、拉取镜像慢,即可能网络带宽很慢,造成长时间阻塞。2、有任务阻塞了拉取队列,造成新建的pod的拉取任务阻塞在队列。3、containerd自身卡在了拉取状态而阻塞队列,即pod的镜像拉取任务其实已经开始运行,但是未知原因,造成拉取阻塞。

重启containerd 后,队列后的请求马上就全部失败清空了

image

 

 

解决办法
总结调查过程,故障原因为上游镜像仓库异常,结合kubelet默认串行拉取镜像的策略综合导致。且kubelet拉取任务是同步任务,即拉取任务会一直等待镜像仓库返回,否则会一直阻塞在队列上。在上游镜像仓库异常无返回时,会造成镜像拉取的阻塞(客户使用了2个镜像源地址,一个异常的镜像源地址阻塞了kubelet的镜像拉取队列,造成正常的镜像源地址的镜像也无法pull了)。解决办法是优先保证上游镜像仓库的稳定,第二是修改kublet拉取策略为并行缓解。并行只是缓解了在使用了多个上游镜像仓库源时,一个镜像仓库源异常不会造成拉取其他镜像仓库源阻塞。在pod全部使用一个镜像仓库源且该源异常时,并行拉取反而会额外增加系统负载。

修改kubelet拉取镜像为并行方式
编辑kubelet配置文件,增加serializeImagePulls: false配置

image

 

 

参考:https://mp.weixin.qq.com/s/XZ7lCNNNGmkxek41sMS6IA

 

http://www.gsyq.cn/news/12247.html

相关文章:

  • [PaperReading] REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
  • 深入解析:【Java开发:Lambda表达式】
  • 算法第一章作业
  • 采购系统
  • PostgreSQL patroni 高可用 1:ectd 安装和配置
  • 实用指南:老题新解|素数对
  • 人文领域的创新乏力:当价值内卷遇上元人文AI的破局之光
  • [iOS] OC高级编程 - 引用计数 (1) - 详解
  • AI论文速读 | 当大语言模型遇上时间序列:大语言模型能否执行多步时间序列推理与推断 - 指南
  • unordered_map性能被吊打!我用基数树让内存池性能暴涨几十倍的秘密
  • 深入解析:TENGJUN“二合一(2.5MM+3.5MM)”耳机插座:JA10-BPD051-A;参数与材质说明
  • CentOS 9服务器版 部署Zabbix7.0 server端 - 详解
  • US$189 VVDI2 BMW FEM amp; BDC Functions Authorization Service With Ikeycutter Condor
  • 模式组合应用-享元模式 - 详解
  • Go 1.26 内置函数 new 新特性
  • 重要公式 - Emi
  • 软件构造中的数据处理(sql) 6章
  • Gitee vs. GitLab:中国开发者为何选择本土代码托管平台?
  • US$39 BAV-Key Adapter for Yanhua Mini ACDP
  • 级数 - Emi
  • 基于STM32的正弦波逆变器设计
  • 深入解析:SDL2视频渲染
  • 使用Ollama 0.12.2本地部署大模型,友好界面对话,开启飞行模式数据完全存在本地
  • 详细介绍:四大金刚之计算机网络
  • 物联网字节校验常用方法
  • 实用指南:RabbitMQ 核心组件详解与持久化日志队列实现方案
  • 完整教程:Zookeeper与Kafka:分布式系统中的协调与消息队列
  • 外发图纸如何控制的最佳实践与注意事项
  • Gitee:中国开发者生态的数字底座正在重构技术格局
  • 文件同步软件是什么?主要有哪几种类型?