跳转到主要内容
当 Datadog 将告警发送到 Slack 时,Devin 会立即着手处理。此模板会监听来自 Datadog app 的告警消息,使用 Datadog MCP 拉取相关指标、日志内容和分布式追踪数据,然后在人类还没看完告警之前,就在会话线程中回发根因分析。

使用此模板

在 Devin 中打开 Datadog Alert Investigation,并使用默认配置创建该自动化。你可以在保存前进行自定义。
想查看手把手的操作演示?请参阅 Datadog Alert Investigation 的分步教程

这种自动化的作用

这里的自动化模式是在数秒内完成从告警到调查。你不必在每次超出阈值时都呼叫人工,而是让 Devin 先完成前 15 分钟的工作——梳理最近的部署、关联各项指标、提取可疑日志——这样,最终在 Slack 中接手的人就能直接进入“我们下一步该做什么”的阶段,而不是还要先从“到底哪里出了问题”开始。

工作原理

触发器: Slack 事件message
  • 事件: slack:message
    • 条件:
      • channel eq #alerts
Devin 会执行的操作: 使用完整的事件上下文启动会话,执行下方的提示,并在失败时选择性通知你。

前提条件

  • 集成:
  • MCP 服务器:

示例提示

此模板自带以下提示。点击 使用模板 后,你可以进行编辑,也可以直接保持原样。

设置

  1. 在 Devin 中打开 Automations → Templates
  2. 点击 Datadog Alert Investigation。系统会打开创建页面,并预先填好此模板内容。
  3. 连接所有必需的集成,如果你还没有安装 MCP 服务器,请先安装。
  4. 替换触发条件中的所有占位符值 (例如,将 your-org/your-repo 替换为你的实际 repo) 。
  5. 查看提示,并根据你团队的语言、规范和护栏进行调整。
  6. 点击 Create automation
大多数自动化模板都包含建议的 ACU 和调用限制,用于在早期 rollout 期间控制成本。在你对自动化行为有足够把握之前,请先保持这些设置不变,之后再根据你的工作负载提高限制。

何时使用此模板

  • 大多数告警最终都只是已知偶发故障的高噪声告警渠道
  • 监控项繁多、且无法为每条告警都配备人工首位响应者的 SRE 组织
  • 与特定 PR 相关的部署后回归告警
  • 缓解值班轮值中的告警疲劳

自定义建议

  • 按特定的监控项名称、标签或严重程度进行筛选
  • 将不同的监控项分流到不同的 playbooks
  • 添加 Sentry MCP 以便交叉核对异常
  • 将最高严重级别的告警升级到 SRE 事件响应

另请参阅