通知渠道
📧 邮件
zhao@acme.com · 已验证
💬 Slack
推送到团队频道
🪝 Webhook
POST 事件 JSON 到你的端点
📱 SMS / 电话 Pro🔒 升级
关键服务短信/电话告警
🎮 Discord
推送到 Discord 频道
告警规则
| 规则 | 触发条件 | 通知 | 启用 | |
|---|---|---|---|---|
| 生产服务中断 | 连续 2 次失败 | 邮件 + Slack | 编辑 | |
| 延迟升高 | P95 延迟 > 2s 持续 5 分钟 | Slack | 编辑 | |
| 依赖宕机 | 任一订阅依赖变为异常 | 邮件 | 编辑 |
最近通知
| 时间(UTC) | 事件 | 渠道 | 送达 |
|---|---|---|---|
| 14:23 | api.acme.com 服务中断 | 邮件 | 已送达 |
| 14:23 | api.acme.com 服务中断 | Slack | 已送达 |
| 09:27 | db.acme.com 已恢复 | 邮件 | 已送达 |
| 昨天 23:41 | OpenAI API(依赖)降级 | Slack | 失败(频道未连接) |
告警可靠性是监控产品的生命线:dudown 对通知做去重、重试(at-least-once)、防抖动误报,且自身多区域高可用(见调研 19 章)。