Datadog日次ヘルスダイジェスト

Datadog 統合の詳細なガイドは、こちらをご覧ください。

Datadog MCP を有効化する

Settings > Connections > MCPサーバー に移動し、Datadog を検索します。Enable をクリックし、Datadog のサイト/リージョンを選択して、次の 2 つのヘッダーを追加します:

DD-API-KEY — Datadog の Organization Settings > API Keys で自分のキーを確認してください
DD-APPLICATION-KEY — Organization Settings > Application Keys で自分のキーを確認してください

毎日のスケジュールを作成

左側のサイドバーで Schedules に移動し、app.devin.ai で Create schedule をクリックします:

Frequency: Daily — チームがミーティング中に結果を確認できるよう、スタンドアップの30～60分前の時間を選択します
Slack channel: チームが自動的にダイジェストを受け取れるように、#ops-alerts などのチャンネルを選択します
Prompt: 閾値について具体的に記述してください — 「look for issues」のようなあいまいな指示は、ノイズが多く無視されがちなダイジェストを生みます

Devin が通常状態と異常状態を区別できるように、サービスについての Knowledge エントリを追加します。たとえば次のようにします: 「payments サービスは通常 p99 が 200ms 程度で動作しており、400ms を超えると懸念があります。search サービスの既知のベースラインのエラー率は 0.5% です。」

Slack でチームにどう表示されるか

毎朝、Devin が MCP 経由で Datadog にクエリを実行し、結果を設定したしきい値と照合して、そのダイジェストをチャンネルに投稿します:

デイリーヘルスダイジェスト — 2026年2月10日

CRITICAL
  payments-service: エラー率 3.2%（閾値: 1%）
  4時間前に発生、デプロイ #487 と相関あり。
  -> /api/checkout ハンドラーと最近の変更を確認してください。

WARNING
  search-service: p99 レイテンシ 620ms（閾値: 500ms）
  3日間で徐々に増加。インデックスの劣化が原因の可能性あり。
  -> 商品検索エンドポイントのクエリプランを確認してください。

  web-app: メモリ使用率 82%（閾値: 80%）
  火曜日から上昇傾向。
  -> メモリリークの可能性についてセッションハンドラーを調査してください。

INFO
  その他のサービスはすべて正常範囲内。
  過去24時間で2つのモニターが回復: cdn-latency、db-replication-lag。

Slack スレッドで返信して任意の検出結果を深掘りできます — Devin はスキャンのコンテキストを完全に保持します:

毎週の Knowledge 更新をスケジュールする

毎日のヘルスチェックによって、knowledge suggestions のストリームが生成されます。特に、「this is a known baseline」や「ignore this monitor during deploys.」のようなフィードバックで検知結果に返信したときに多く生成されます。これらの提案を処理するために、毎週 1 回の Devin セッションをスケジュールし、今後の実行で自動的に精度が高まるようにします。これを毎週 (例: 月曜の朝) Devin セッションとして実行するように設定し、Knowledge 管理ツールへアクセスできるようにします。時間の経過とともに、このフィードバックループによって日次ダイジェストの精度が向上し、誤警報が減り、重要度の評価が改善され、より賢い推奨が得られるようになります。