Investigación automática de alertas de Datadog
Conecta las alertas de PagerDuty o Datadog con Devin para investigar automáticamente los incidentes.Activa el MCP de Datadog
Devin necesita acceso a tu cuenta de Datadog para consultar logs, métricas y monitores durante una investigación.
- Ve a Settings > MCP Marketplace y busca Datadog
- Haz clic en Enable e introduce tu Datadog API key y tu application key; genéralas en Datadog > Organization Settings > API Keys
- Haz clic en Test listing tools para verificar que Devin puede conectarse
Cree el puente de alertas hacia Devin
Necesitas un servicio pequeño que reciba webhooks de alerta e inicie una sesión de Devin a través de la Devin API. Despliega esto como una función serverless (AWS Lambda, Cloudflare Worker) o un contenedor ligero:Crea un service user en Settings > Service Users en app.devin.ai con el permiso
ManageOrgSessions. Copia el token de API que se muestra después de crearlo y guárdalo como DEVIN_API_KEY en tu servicio puente. Configura DEVIN_ORG_ID con el ID de tu organización: puedes obtenerlo llamando a GET https://api.devin.ai/v3/enterprise/organizations con tu token.El código anterior usa el playbook de plantilla !triage: duplícalo y personaliza los pasos de investigación para tu stack, luego actualiza el playbook_id en tu servicio puente.Envía las alertas al webhook
Directamente desde Datadog:
- En tu panel de Datadog, ve a Integrations > Webhooks
- Haz clic en New Webhook y establece la URL a tu endpoint del bridge (por ejemplo,
https://your-bridge.example.com/alert) - En el mensaje de notificación de cualquier monitor, agrega
@webhook-devin-bridge— Devin investigará siempre que se active ese monitor
- En PagerDuty, ve a Services > [your service] > Integrations
- Agrega una integración Generic Webhooks (v3)
- Establece la URL del webhook en tu endpoint del bridge y filtra por tipo de evento
incident.triggered
Qué investiga Devin
Cuando una alerta inicia una sesión, Devin usa Datadog MCP para llevar a cabo una investigación estructurada: consultar logs, correlacionarlos con despliegues y rastrear el error hasta el código fuente.Ejemplo de investigación que Devin publica en Slack:
Ampliar el pipeline
Una vez que la investigación básica esté funcionando, añade más automatización:Personaliza el playbook de triaje. El código de bridge ya usa el
!triage template playbook. Duplícalo y adapta la lista de verificación de investigación al stack de tu equipo: añade runbooks específicos por servicio, rutas de escalamiento y convenciones para PRs de hotfix.Acota según la gravedad. Canaliza las alertas P1 para investigación inmediata y hotfix. Canaliza las alertas P3 solo para análisis de causa raíz. Usa diferentes prompts o playbooks según el nivel de gravedad.Añade Knowledge sobre tus servicios — umbrales normales, arquitectura, runbooks de guardia — para que la investigación de Devin empiece desde el contexto de tu equipo en lugar de desde cero.