Skip to main content

Datadog 每日健康状况摘要

每日会话,用于扫描 Datadog 中的错误,并将健康摘要发送到 Slack。
AuthorCognition
Category自动化
Features计划任务, MCP, 集成
1

启用 Datadog MCP

前往 Settings > MCP Marketplace,搜索 Datadog。点击 Enable,并添加两个密钥:如果你的 Datadog 实例使用了自定义站点(例如 datadoghq.eu),还需要设置可选的 DATADOG_SITE 变量。
2

创建每日日程

app.devin.ai 的左侧边栏中进入 Schedules,然后点击 Create schedule
  • Frequency: Daily — 选择在站会前 30–60 分钟的时间,这样团队可以在会议期间查看检查结果
  • Slack channel: 选择一个频道(例如 #ops-alerts),让你的团队自动收到汇总
  • Prompt: 对阈值要写清楚——像“查找问题”这样的模糊指令会产生噪声很大的摘要,容易被忽略
为你的服务添加 Knowledge 条目,以便 Devin 能区分正常与异常——例如:“payments 服务通常 p99 延迟为 200ms;超过 400ms 就值得关注。search 服务的已知基线错误率为 0.5%。”
3

你的团队在 Slack 中看到的内容

每天早晨,Devin 通过 MCP 查询 Datadog,将结果与你设定的阈值进行对比,并将简报发送到你的频道:
Daily Health Digest — Feb 10, 2026

CRITICAL
  payments-service: Error rate at 3.2% (threshold: 1%)
  Started 4h ago, correlates with deploy #487.
  -> Check /api/checkout handler and recent changes.

WARNING
  search-service: p99 latency at 620ms (threshold: 500ms)
  Gradual increase over 3 days. Likely index degradation.
  -> Review query plans for the product search endpoint.

  web-app: Memory at 82% (threshold: 80%)
  Trending upward since Tuesday.
  -> Investigate session handler for possible memory leak.

INFO
  All other services within normal parameters.
  2 monitors recovered in past 24h: cdn-latency, db-replication-lag.
在 Slack 线程中回复以深入调查任何发现 — Devin 会保留扫描的完整上下文:
4

安排每周的 Knowledge 更新

您的每日健康检查会源源不断地产生knowledge suggestions——尤其是在您针对检查结果给出类似 “this is a known baseline” 或 “ignore this monitor during deploys.” 之类的反馈时。安排每周一次的 Advanced Devin 会话来处理这些建议,这样后续的运行就能自动变得更智能。将其设置为每周运行一次(例如周一早上)的 Advanced Devin 会话,这样它就可以访问 Knowledge 管理工具。随着时间推移,这个反馈循环会让您的每日摘要更加准确——更少的误报、更合理的严重性评级,以及更智能的推荐。