当前位置: 首页 > news >正文

CPU softlockup(软锁定)

CPU softlockup(软锁定)是 Linux 内核 watchdog 机制报出的“某颗 vCPU 在内核态连续 20 s(默认)没有发生任务切换”的异常。
本质是:内核线程/中断上下文长时间关抢占(或死循环),导致该核上的 watchdog 线程得不到调度,从而在日志里打印
watchdog: BUG: soft lockup - CPU#X stuck for 22s! [process:PID]
 

一、对 K8s 与 etcd 的直接影响

  1. kubelet 卡死:
    • 无法按时向 apiserver 发送心跳 → 节点被标记为 NotReady,触发 Pod 驱逐。
  2. etcd 卡死:
    • 它的 raft goroutine 若正好落在受害 CPU,会因 20 s 内无磁盘 I/O 或网络回应而被同伴视为“失联”,触发新一轮 leader 选举,造成 etcd 主从频繁切换;严重时整个 apiserver 出现 5xx,集群控制面抖动。
  3. 容器运行时(containerd/docker)同样可能因 runc 卡住而无法创建/销毁容器,Pod 一直 ContainerCreatingTerminating

二、常见根因(结合近期案例)

  • 内核模块死循环或自旋锁长期未释放
     
  • cgroup 读取路径(kubelet 统计内存/CPU 用量)在 5.10 以下内核有已知锁竞争,64 核以上机器极易触发;
  • 驱动 bug、IPI 风暴、过量 iptables 规则导致 softirq 占用过高
     
  • 虚拟机场景下宿主机过载,vCPU 被抢占,Guest 侧看就是“softlockup”。

三、快速止血与后续规避

  1. 立即恢复
    • 登录节点 echo 3 >/proc/sys/vm/drop_caches 清缓存,减少 cgroup 遍历量;
    • 若 repeatable,可临时 echo 30 >/proc/sys/kernel/watchdog_thresh 把阈值放宽到 30 s,避免立刻 panic。
  2. 根因处理
    • 升级内核 ≥ 5.10.134(官方修复了大量 cgroup 锁竞争);
    • 给 kubelet 加参数 --housekeeping-interval=30s --cgroups-per-qos=false 降低扫描频率;
    • 检查是否有过多的 iptables 规则/内核模块(nf_conntrack 等),按需精简;
    • 对 VM 节点,确保宿主机不超载,开启硬件辅助虚拟化特性。
  3. 监控
    • /var/log/messagesjournalctl -k 做日志告警:watchdog.*soft lockup
    • 通过 node_exporter + Prometheus 监控 node_softlockup_seconds(需自己写脚本解析 dmesg)。
只要出现 softlockup,该节点上所有需要时间片及时响应的组件(kubelet、etcd、容器运行时)都会连带受害,因此务必把内核版本、驱动、系统负载控制在官方建议区间内,才能彻底消除 etcd 因“假死”而频繁重新选主的问题。
这就是 cgroup 锁竞争 → softlockup → etcd/kubelet 被误认为宕机 → 主从频繁切换。
一句话:
64 核以上机器,老内核 + 万级 cgroup,并发抢“一把大锁”,把 CPU 憋死,表现为 softlockup,连带拖垮 etcd 选主。
http://www.gsyq.cn/news/47628.html

相关文章:

  • vue网站禁止右键以及禁止打开控制台,检测到控制台停止运行
  • 11.11 CSP-S 模拟赛 T3. square
  • locust高级特性详解
  • 11月12日打卡
  • Java中将String字符串转换为算术表达式并计算
  • 按钮固定在底部
  • locust基础
  • 办公楼设计多少钱一平?广州办公楼设计收费标准
  • 完整教程:Redis GEO 模块深度解析:从原理到高可用架构实践
  • 2025/11/8
  • 2025年广州到吉尔吉斯斯坦海运公司权威推荐榜单:广州到吉尔吉斯斯坦运输/广州到吉尔吉斯斯坦双清门到门/广州到吉尔吉斯斯坦双清源头公司精选
  • 锦州西林瓶灌装压塞机厂家终身维护服务及费用指南
  • 微算法科技(NASDAQ MLGO)开发基于优先级的区块链交易打包算法,提高云边协同计算环境下的交易效率
  • 肇庆化妆品西林瓶灌装线推荐:食品级材质接触部件解析
  • 2025年深色贝母漆优质厂家权威推荐榜单:粉色贝母漆/贝母漆/珍珠白贝母漆源头厂家精选
  • P13508 [OOI 2024] Burenka and Pether
  • etcd的压缩和碎片整理提升性能
  • 局域网扫码枪/局域网二维码接收工具
  • 完整教程:AI编程工具(Cursor/Copilot/灵码/文心一言/Claude Code/Trae)AI编程辅助工具全方位比较
  • 【IEEE出版 | 连续4年稳定EI检索】第五届新能源与电力工程国际学术会议(ICNEPE 2025)
  • 习题解析之:计算圆周率——拉马努金法
  • 2025年隔音棉供货厂家权威推荐榜单:阻燃泡沫/隔热棉/阻燃棉源头厂家精选
  • 火车头采集器教程:夸克网盘批量转存(附工具)
  • 痛苦在虚无中回荡 神最终恩赐了绝望 是爱恨交织的冲撞 你永无力再违抗
  • AI驱动的技术突破:打造先进且合规的医疗数据分类分级新范式
  • 教育行业数据库风险监测方案——基于行标、非侵入式、多维度场景化的安全治理新模式
  • 实用指南:JVM(十)-- 类的加载器
  • Qoder 降价,立即生效!首购 2 美金/月
  • 【SPIE出版 | 快速见刊检索】第二届电子信息工程与智能通信国际研讨会(EIC 2025)
  • 同时支持RTSP/ONVIF/GB28181的平台哪里找?来看EasyGBS!