Skip to main content

日次 Datadog ヘルスダイジェスト

Datadog をスキャンしてエラーを検出し、ヘルスダイジェストを毎日 Slack に投稿するセッション。
AuthorCognition
Category自動化
Featuresスケジュール, MCP, 連携
1

Datadog MCP を有効化する

Settings > MCP Marketplace に移動し、Datadog を検索します。Enable をクリックして、次の 2 つのシークレットを追加します:Datadog インスタンスでカスタムサイト (例: datadoghq.eu) を使用している場合は、オプションの DATADOG_SITE 変数も設定してください。
2

毎日のスケジュールを作成

左側のサイドバーで Schedules に移動し、app.devin.aiCreate schedule をクリックします:
  • Frequency: Daily — チームがミーティング中に結果を確認できるよう、スタンドアップの30~60分前の時間を選択します
  • Slack channel: チームが自動的にダイジェストを受け取れるように、#ops-alerts などのチャンネルを選択します
  • Prompt: 閾値について具体的に記述してください — 「look for issues」のようなあいまいな指示は、ノイズが多く無視されがちなダイジェストを生みます
Devin が通常状態と異常状態を区別できるように、サービスについての Knowledge エントリを追加します。たとえば次のようにします: 「payments サービスは通常 p99 が 200ms 程度で動作しており、400ms を超えると懸念があります。search サービスの既知のベースラインのエラー率は 0.5% です。」
3

Slack でチームにどう表示されるか

毎朝、Devin が MCP 経由で Datadog にクエリを実行し、結果を設定したしきい値と照合して、そのダイジェストをチャンネルに投稿します。
デイリーヘルスダイジェスト — 2026年2月10日

CRITICAL
  payments-service: エラー率 3.2%(閾値: 1%)
  4時間前に発生、デプロイ #487 と相関あり。
  -> /api/checkout ハンドラーと最近の変更を確認してください。

WARNING
  search-service: p99 レイテンシ 620ms(閾値: 500ms)
  3日間で徐々に増加。インデックスの劣化が原因の可能性あり。
  -> 商品検索エンドポイントのクエリプランを確認してください。

  web-app: メモリ使用率 82%(閾値: 80%)
  火曜日から上昇傾向。
  -> メモリリークの可能性についてセッションハンドラーを調査してください。

INFO
  その他のサービスはすべて正常範囲内。
  過去24時間で2つのモニターが回復: cdn-latency、db-replication-lag。
Slack スレッドで返信して任意の検出結果を深掘りできます — Devin はスキャンのコンテキストを完全に保持します:
4

毎週の Knowledge 更新をスケジュールする

毎日のヘルスチェックによって、knowledge suggestions のストリームが生成されます。特に、「this is a known baseline」や「ignore this monitor during deploys.」のようなフィードバックで検知結果に返信したときに多く生成されます。これらの提案を処理するために、毎週 1 回の Advanced Devin セッションをスケジュールし、今後の実行で自動的に精度が高まるようにします。これを毎週(例: 月曜の朝)Advanced Devin セッションとして実行するように設定し、Knowledge 管理ツールへアクセスできるようにします。時間の経過とともに、このフィードバックループによって日次ダイジェストの精度が向上し、誤警報が減り、重要度の評価が改善され、より賢い推奨が得られるようになります。