监控告警 2026 选型:Prometheus / Grafana / Datadog / 阿里云 SLS
分布式系统让"上线后看一眼日志就行"的时代彻底成为历史。一个普通的微服务架构可能涉及上百个 Pod、几十种中间件、跨区域多活部署,一次接口超时背后可能是数据库慢查询、消息积压、依赖服务返回 5xx 或 GC 暂停。要把这些线索串成可操作的告警,依靠的是一套完整的监控可观测性体系。Prometheus 与 Grafana 长期主导开源世界;Datadog、New Relic、Dynatrace 在商业 APM 市场上分庭抗礼;国内则有阿里云 SLS、腾讯云 CLS、火山引擎云监控承担云原生场景。本文从指标、日志、追踪三大信号出发,对比主流方案在能力、成本与国内适用性上的差异,给出 2026 年的实战选型建议。
三大信号:Metrics、Logs 与 Traces 的角色分工
指标(Metrics)是带时间戳的数值序列,比如 CPU 利用率、QPS、P99 延迟。它适合趋势观察、容量规划、异常告警,存储成本极低,但无法回答"这一次请求为什么慢"。
日志(Logs)是结构化或非结构化的事件流,能记录任意上下文,是排查具体问题的"一手资料"。劣势是体积大、检索成本高,需要索引才能保证查询速度。
追踪(Traces)记录一次请求在多个服务间的完整链路,每一段调用对应一个 Span,包含开始时间、耗时、依赖。追踪是定位分布式系统延迟根因的最佳工具。
三种信号不能互相替代。一个成熟的可观测性方案通常包含全部三种,并通过 trace_id 等关联字段彼此串联。OpenTelemetry 在过去三年迅速崛起,把三类信号统一进同一 SDK 与协议,是 2026 年事实上的接入标准。
Prometheus:拉模式时序数据库的事实标准
Prometheus 由 SoundCloud 在 2012 年开源,成为 CNCF 早期毕业项目,是目前 Kubernetes 集群的默认指标后端。它采用 Pull 模型,定期从目标 endpoint 拉取 /metrics,使用多维标签(label)的数据模型,配合 PromQL 提供强大的查询能力。
PromQL 的核心抽象是即时向量(instant vector)与区间向量(range vector)。常见模式包括 rate 计算变化率、histogram_quantile 估算分位数、sum by 聚合维度、predict_linear 做容量预测。一旦熟悉 PromQL,绝大多数告警与面板都可以表达得简洁优雅。
生态方面,Exporter 数量已经过千:node_exporter、kube-state-metrics、blackbox_exporter、mysqld_exporter、redis_exporter、jvm exporter 几乎能想到的中间件都有现成实现。Alertmanager 处理告警去重、分组、抑制、静默,与企业 IM(钉钉、飞书、企业微信)的集成已成标配。原生 Prometheus 单实例适合中小集群,规模化后建议引入 Thanos 或 VictoriaMetrics 实现长期存储与水平扩展。
Grafana:可视化、告警、统一面板
Grafana 已经超越"画图工具",成为统一可观测性面板。它原生支持 Prometheus、Loki、Tempo、Mimir、InfluxDB、ElasticSearch、CloudWatch、SLS 等数十种数据源,可以在同一仪表板里展示指标、日志、追踪并通过 trace_id 互相跳转。
Grafana Labs 还提供完整的开源产品矩阵:Loki 做日志,Tempo 做追踪,Mimir 做大规模指标,Pyroscope 做持续剖析。这些组件与 Prometheus 协同,只用一份 Grafana 面板就能把基础设施层、应用层、业务层串联起来。Grafana Cloud 则是托管版本,免运维但按 Active Series 计费。
Grafana 的告警在 8.0 后从 Prometheus 内置告警迁移到 Grafana Unified Alerting,支持跨数据源的复合告警表达式。但许多团队仍在生产中保留 Alertmanager,因为它的去重与抑制规则更成熟。两种方案可以共存。
Datadog:商业 APM 的标杆
Datadog 是商业 SaaS 的代表。它的卖点是"一个 Agent 解决一切"——单个 Agent 同时采集主机指标、容器指标、APM、Trace、日志、网络流量、安全事件。Web 控制台高度集成,从指标点击直接跳到对应 Trace、再跳到 Trace 关联的日志,调试体验极佳。
Datadog APM 支持几十种语言运行时,自动埋点能力强;RUM 与 Synthetic Monitoring 把前端真实用户体验与主动拨测合二为一;Watchdog 提供基于机器学习的异常检测;Compliance Monitoring 做云资源合规审计。这些功能堆叠起来对企业极具吸引力,但也意味着账单复杂——主机数、Custom Metric 数、Indexed Log 数都单独计费,规模化后月费容易突破五位数美元。
国内访问 Datadog 默认走海外 Region,延迟与稳定性受国际网络影响。少数跨境企业会选择部分指标走 Datadog、核心日志走国内云,避免单点依赖。如果业务主要面向国内用户,纯 Datadog 方案的成本与合规性都不理想。
阿里云 SLS 与国内云监控对比
阿里云 SLS(日志服务)已经发展为日志、指标、追踪一站式可观测性平台。日志写入按 GB 计费,存储按月计费;指标存储与查询通过 Metric Store;Trace 服务支持 OpenTelemetry 协议直接接入。控制台开箱即用,索引可视化建立,告警规则模板丰富。
腾讯云 CLS 提供类似能力,强项是与腾讯云原生数据库、消息队列、负载均衡的深度联动;火山引擎云监控(VMP)则在抖音电商、字节跳动内部产品上经过大流量打磨,性能强、与火山生态产品集成深。华为云 LTS、AOM 也是同等级别玩家。
共同特点是:免运维、合规友好、与本厂商云资源(CCM、CDN、负载均衡、数据库)一键打通。劣势是 vendor lock-in 较重,迁出成本高。中小公司若主体上云,国内云的监控 SaaS 是性价比最高的选择;多云或混合云团队建议在云监控之上叠加 Prometheus 与 OpenTelemetry,把核心指标握在自己手中。
OpenTelemetry:跨平台统一接入
OpenTelemetry(OTel)是 CNCF 在合并 OpenTracing 与 OpenCensus 后推出的可观测性数据接入标准。它包含 SDK(覆盖主流语言)、Collector(部署在节点或集群中作为转发与处理层)、协议(OTLP,基于 gRPC/HTTP)、规范(Spec)四部分。截至 2026 年,Traces 与 Metrics 规范已稳定,Logs 规范也已 GA,主流厂商都支持 OTLP 接入。
OTel 最大的价值是解耦应用与后端。应用只需埋点 OTel SDK,把数据送给 Collector;Collector 再决定把数据发往 Tempo、Jaeger、Datadog、SLS、火山引擎等任意目标,甚至可以同时发多份。这彻底打破了"换监控平台就要重写埋点"的困境,也让多云架构有了统一的可观测性入口。
最佳实践是把 Collector 部署为 DaemonSet(每节点一份)+ Deployment(集群级别处理),结合 batch、tail-based sampling、attributes processor 实现成本与精度的平衡。Sample 率不要在 SDK 端做,统一交给 Collector,方便策略调整。
告警与值班:从触发到收敛
告警是监控的最终输出。Prometheus Alertmanager 与 Grafana Alerting 都基于路由树,根据 label 把告警分发到不同接收方(钉钉、飞书、企业微信、短信、电话)。Datadog、SLS、火山监控提供原生告警,与平台告警规则深度耦合。共同的痛点是:告警风暴、误报、值班疲劳。
2026 年的实战做法包括:基于 SLO(Service Level Objective)做告警,避免"CPU 大于 80%"这类无业务意义的阈值;引入预算消耗速率(burn rate)让告警在快速消耗预算时立刻响应、缓慢消耗时忽略;通过抑制规则让低优先级告警在高优先级触发时自动静默;用 PagerDuty、Opsgenie、PagerTree 等值班工具做轮班与升级。
国内团队往往直接对接钉钉/飞书/企业微信机器人,但这些 IM 机器人不具备完整的值班能力。规模化后建议引入开源 Cabot、Alerta 或商业 PagerDuty,把告警生命周期管理与人员排班分离开。
2026 年组合选型与成本控制
中小团队、Kubernetes 单集群、预算有限:选 Prometheus + Grafana + Loki + Tempo 自托管,OTel Collector 接入,Alertmanager 做告警。这是开源世界最经典的组合,社区文档丰富,几乎所有问题都能 Google 到答案。长期存储用 VictoriaMetrics 或 Thanos + 对象存储。
企业级、多集群、注重 SLO 与合规:在上述开源底座基础上引入 Mimir 或商业 Grafana Cloud,配合阿里云 SLS 或火山引擎做日志与追踪兜底,重要业务接入 APM SaaS(Datadog 或 New Relic)补足开箱即用的异常检测与 RUM。OTel Collector 让多后端共存不再痛苦。
国内云原生为主、希望免运维:直接采用阿里云 SLS + ARMS + Prometheus 托管版,腾讯云 TMP + CLS,或火山引擎 VMP + TLS。云厂商方案能快速上线,但记得在关键业务上保留 OTel 中间层,未来迁移成本可控。
最后,无论选什么组合,都要把基础工程打牢:统一服务命名与标签规范、明确 SLO 与错误预算、定期演练告警预案、为新服务落地"出生即可观测"的脚手架。监控不是上线后的附属物,而是与代码同等重要的工程产物。
常见问题
指标、日志、追踪到底哪个最重要?
三者解决不同问题,不能取代彼此。指标用于趋势监控与告警,存储成本最低;日志记录任意结构化或非结构化事件,定位具体问题最有用;追踪展示请求在多服务间的完整链路,是排查分布式延迟的关键。生产系统通常三者并存。OpenTelemetry 让三种信号通过统一 SDK 与协议输出,再分别送往合适的后端。
Datadog 真的那么贵吗?
随规模线性增长,确实可能让账单失控。Datadog 按主机、按 Custom Metric、按 Indexed Log 单独计费,复杂度高。一个中等规模 Kubernetes 集群每月几千甚至几万美元很常见。它的价值在于"开箱即用"——上百种集成、统一面板、强大告警与异常检测。预算紧张时可以只用其 APM 与 RUM,配合自托管 Prometheus 收集基础指标。
Prometheus 长期存储怎么解决?
Prometheus 自带 TSDB 默认只保留 15 天,长期存储推荐 Thanos、Cortex 或 VictoriaMetrics。Thanos 通过 Sidecar 将块上传对象存储(S3、OSS、COS),Querier 实现跨集群联邦;VictoriaMetrics 是单一二进制的兼容方案,写入吞吐与压缩比都极佳。两者都能让 Prometheus 数据保留几个月甚至几年,成本明显低于商业 SaaS。
国内云上选 SLS 还是自建 Loki?
取决于团队规模与成本敏感度。阿里云 SLS 提供日志、指标、追踪一站式 SaaS,控制台开箱即用,按写入量与存储计费;优势是无需运维与高可靠,劣势是日志量大时月费可能过万。Loki 自托管更便宜,与 Prometheus 体系契合,标签即查询的设计高度可控;劣势是需要团队具备 Loki 运维能力。中小公司优先 SLS,规模化后逐步迁移到 Loki + 对象存储。
OpenTelemetry 现在生产可用吗?
可以,且强烈推荐。截至 2026 年,Tracing 与 Metrics 规范已经稳定,Logs 规范也已 GA,主流语言 SDK 与 Collector 都成熟。使用 OTel Collector 作为中间层,可以一处采集、多处分发——既送 Tempo/Jaeger,也送 Datadog/SLS。它解决了"被某个监控平台锁定"的最大痛点,是云原生监控的事实标准。