当前位置: 首页 > news >正文

云原生环境 Prometheus 企业级监控实战指南

一、为什么选择 Prometheus?

在传统架构中,Zabbix、Nagios 等监控工具是主流,但在 Kubernetes 环境中,这些工具难以应对动态、短生命周期、大规模容器的监控需求。Prometheus 应运而生,成为 CNCF 毕业项目之一,专为云原生设计。

核心优势:

  • 多维数据模型:支持标签(labels)实现灵活的数据查询与聚合。

  • PromQL:强大的查询语言,支持实时分析和告警。

  • 无需依赖外部存储:内置时序数据库。

  • 服务发现机制:自动发现 K8s 中的 Pod、Service、Node。

  • Pull 模型:主动拉取 Metrics,便于控制数据采集节奏。


二、Prometheus 在 K8s 中的架构流程

text

Node Exporter (节点级) + cAdvisor (容器级) → Prometheus (采集+存储) → Grafana (可视化) → AlertManager (告警)

组件说明:

组件功能
Node Exporter采集节点 CPU、内存、磁盘、网络等指标
cAdvisor集成在 Kubelet 中,采集容器资源使用情况
Prometheus拉取 Metrics,存储时序数据,支持 PromQL
Grafana可视化仪表盘
AlertManager告警路由、分组、静默、抑制

三、环境准备:克隆 Prometheus Operator 项目

bash

git clone -b release-0.10 https://github.com/prometheus-operator/kube-prometheus.git cd kube-prometheus

四、安装 Prometheus Operator(核心)

bash

kubectl apply --server-side -f manifests/setup

--server-side避免 kubectl 的冲突问题,直接由 API Server 处理声明式配置。

删除 Operator:

bash

kubectl delete --ignore-not-found=true -f manifests/setup

五、安装 Prometheus Stack(全家桶)

bash

kubectl apply --server-side -f manifests/

包含:Prometheus、AlertManager、Grafana、ServiceMonitors、告警规则等。

删除 Stack:

bash

kubectl delete --ignore-not-found=true -f manifests/ -f manifests/setup

六、查看组件状态

bash

kubectl get pod -n monitoring

七、暴露 Grafana 服务(NodePort)

编辑 Service:

bash

kubectl edit svc grafana -n monitoring

修改type: NodePort,并指定nodePort: 32082

yaml

ports: - name: http nodePort: 32082 port: 3000 protocol: TCP targetPort: http type: NodePort

访问地址:http://<任意节点IP>:32082

默认账号密码:admin/admin


八、暴露 Prometheus 服务(NodePort)

bash

kubectl edit svc prometheus-k8s -n monitoring

修改type: NodePortnodePort: 32370

访问地址:http://<任意节点IP>:32370


九、配置 Grafana 数据源

若未自动添加,手动配置:

  • URL:http://prometheus-k8s:9090

  • 保存并测试


十、导入监控 Dashboard

推荐模板:

模板 ID说明
13105Kubernetes 中文版集群监控
7249Kubernetes Cluster
893Docker 和系统监控
14731Node Exporter 主机监控

导入方式:Grafana →+→ Import → 输入 ID → Load → Import


十一、监控 MySQL:Exporter 实战

1. 部署 MySQL

bash

kubectl create deploy mysql --image=mysql:5.7.23 kubectl set env deploy/mysql MYSQL_ROOT_PASSWORD=pwd123

2. 暴露 Service

bash

kubectl expose deployment mysql --type NodePort --port=3306

3. 创建 MySQL Exporter

yaml

# mysql-exporter.yaml apiVersion: apps/v1 kind: Deployment metadata: name: mysql-exporter namespace: monitoring spec: replicas: 1 selector: matchLabels: k8s-app: mysql-exporter template: metadata: labels: k8s-app: mysql-exporter spec: containers: - name: mysql-exporter image: registry.cn-beijing.aliyuncs.com/dotbalo/mysql-exporter env: - name: DATA_SOURCE_NAME value: "exporter:exporter@(mysql.default:3306)/" ports: - containerPort: 9104 --- apiVersion: v1 kind: Service metadata: name: mysql-exporter namespace: monitoring labels: k8s-app: mysql-exporter spec: selector: k8s-app: mysql-exporter ports: - name: api port: 9104

bash

kubectl apply -f mysql-exporter.yaml

4. 创建 ServiceMonitor

yaml

# mysql-sm.yaml apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: mysql-exporter namespace: monitoring labels: k8s-app: mysql-exporter spec: jobLabel: k8s-app endpoints: - port: api interval: 30s selector: matchLabels: k8s-app: mysql-exporter

bash

kubectl apply -f mysql-sm.yaml

5. 导入 MySQL Dashboard

模板 ID:6239


十二、钉钉告警集成(企业级必备)

1. 添加钉钉机器人

  • 群设置 → 智能群助手 → 添加机器人 → 自定义

  • 关键词:FIRING

2. 部署 webhook-dingtalk

bash

wget https://github.com/timonwong/prometheus-webhook-dingtalk/releases/download/v2.0.0/prometheus-webhook-dingtalk-2.0.0.linux-amd64.tar.gz tar xf prometheus-webhook-dingtalk-2.0.0.linux-amd64.tar.gz mv prometheus-webhook-dingtalk-2.0.0.linux-amd64 /usr/local/dingtalk

3. 配置 config.yml

yaml

targets: webhook2: url: https://oapi.dingtalk.com/robot/send?access_token=你的token secret: 你的secret

4. 启动服务

bash

cat > /etc/systemd/system/prometheus-webhook-dingtalk.service <<EOF [Unit] Description=Prometheus Webhook DingTalk After=network.target [Service] ExecStart=/usr/local/dingtalk/prometheus-webhook-dingtalk WorkingDirectory=/usr/local/dingtalk Restart=always [Install] WantedBy=multi-user.target EOF systemctl start prometheus-webhook-dingtalk

5. 修改 AlertManager 配置

编辑alertmanager-secret.yaml,添加:

yaml

receivers: - name: webhook webhook_configs: - url: http://<dingtalk节点IP>:8060/dingtalk/webhook2/send send_resolved: true

bash

kubectl replace -f alertmanager-secret.yaml

6. 暴露 AlertManager

bash

kubectl edit svc alertmanager-main -n monitoring

修改type: NodePort,查看端口:

bash

kubectl get svc -n monitoring alertmanager-main

访问:http://<任意节点IP>:30586


十三、补充知识点(博客亮点)

✅ 1. Prometheus 告警状态机

状态说明
Inactive未触发
Pending已触发,等待 for 时间
Firing触发并发送到 AlertManager

✅ 2. Prometheus vs Prometheus Operator

方式优点缺点
手动部署灵活可控配置复杂,需手动维护
Operator自动化管理,K8s 原生黑盒化,调试困难

✅ 3. ServiceMonitor 核心字段

  • selector.matchLabels:匹配 Exporter Service 的标签

  • endpoints.port:Exporter 的端口名称

  • interval:采集间隔

✅ 4. Exporter 设计模式

适用于无法直接暴露 Metrics 的应用(MySQL、Redis、Kafka、Nginx 等),通过 Sidecar 或独立 Pod 采集并暴露。

✅ 5. Prometheus 高可用方案

  • 双实例 + 数据分片

  • Thanos 或 VictoriaMetrics 实现长期存储与全局视图

  • AlertManager 集群化避免告警重复


十四、常见问题排查

问题解决方法
Target 状态为 DOWN检查 Service 端口、Endpoint、网络策略
Grafana 无数据确认 Prometheus 数据源 URL 是否正确
钉钉未收到告警检查 AlertManager 配置、机器人关键词、网络连通性
Prometheus 内存高减少采集频率、优化 PromQL、限制标签基数
http://www.gsyq.cn/news/1469467.html

相关文章:

  • 计算机毕业设计之基于大数据的高速公路经营数据分析系统的设计和实现
  • 2026必看:8款好用的主流AI编程助手权威推荐
  • 5分钟解决群晖Audio Station歌词缺失难题:智能匹配与双语显示完整方案
  • 2026年旅游船厂家/品牌最新推荐榜单:新能源电动旅游船、画舫仿古双层豪华游船、定制玻璃钢/钢质/铝合金旅游船公司全景解析 - 品牌企业推荐师(官方)
  • cc-switch新手教程:在快马平台从零开始学习代码切换技术
  • 2026上海徐汇区防水补漏哪家好?住建实地测评权威榜单TOP5|卫生间免砸砖/阳台屋顶/厨卫漏水维修(6月徐汇专项调研) - 苏易修缮
  • 从零搭建可落地的机器翻译系统:TensorFlow端到端实践
  • 3分钟掌握WindowResizer:解锁Windows窗口尺寸的终极控制权
  • 2026年 常州高端婚纱/高端礼服租赁/新娘跟妆TOP5推荐:轻奢质感与仙气造型的惊艳之选 - 品牌企业推荐师(官方)
  • 3分钟搞定:Windows电脑安装安卓应用的终极方案
  • 如何用免费开源SMUDebugTool掌控AMD Ryzen处理器性能?
  • 全链路运营:自媒体内容SEO涨粉变现系统化指南一
  • 2026最新企业AI编程部署方案必看:8款主流AI编程工具权威选型与落地指南
  • 科普帖|论文查重居然能白嫖?书匠策AI这个操作我研究明白了
  • 3分钟搞定!Windows包管理器Winget一键安装解决方案
  • 小程序毕业设计-基于springboot后端的微信小程序视频点播基于springboot+微信小程序的视频点播微信小程序(源码+LW+部署文档+全bao+远程调试+代码讲解等)
  • 实时机器人运动控制:智能制造底层核心,人形机器人催生全新增长曲线
  • 20260605 之所思 - 人生如梦
  • 2026年 国际物流专线推荐榜单:深圳/中美/中欧/中英/中日/东南亚专线实力派公司精选 - 品牌企业推荐师(官方)
  • 会议视频快速转文字提取音频,实用办公工具实测 - 品牌测评鉴赏家
  • Veo风格迁移部署踩坑清单:从A100到RTX 4090,6类硬件下显存溢出的5种精准定位法(含nvidia-smi实时诊断脚本)
  • 新手福音:用快马AI生成带注释的comfyuiv8组件学习项目
  • 缺失值处理实战:从类型识别到下游模型敏感性测试
  • 深圳本地五大搬家公司精选:2026最新实测红榜,实力靠谱商家一览 - 从来都是英雄出少年
  • 强力工具完全指南:如何用Unlock-Music破解主流音乐平台加密限制
  • Shiply App热修复紧急发布流程
  • 独立思考真正的意义:拥有自己的大脑
  • Arduino ESP32:从物联网新手到专业开发者的终极指南
  • 从502错误到丝滑pub get:一份Flutter镜像配置的防坑与自动化配置指南
  • 2026这6款硬核降AIGC平台大起底,一键让AIGC率直逼绝对安全线! - 降AI小能手