AI Guardrails - Devin Docs

Los AI Guardrails permiten a los administradores de Enterprise definir límites de seguridad para la forma en que los usuarios interactúan con Devin en toda la organización. Estos guardrails revisan automáticamente los mensajes entrantes de los usuarios —incluidos los mensajes iniciales, los mensajes de seguimiento y los comentarios de PR (pull request)— para detectar intentos de prompt injection, exfiltración de datos y violaciones de políticas antes de que Devin los procese.

Overview

Los guardrail se ejecutan como una capa adicional de supervisión sobre los mensajes enviados a Devin. Analizan los mensajes de los usuarios en tiempo real y pueden:

Registrar mensajes sospechosos para su revisión (log_only)
Advertir al usuario con un banner visible mientras se sigue procesando el mensaje (warn_user)
Bloquear mensajes que infringen las políticas de la organización (block_message)
Finalizar por completo la sesión cuando se detecta una infracción crítica (kill_session)

Configuring Guardrails

Los administradores de Enterprise pueden configurar guardrail desde la página de configuración de Enterprise o desde la página de configuración de la organización en Settings > Guardrails. La página de configuración de guardrail incluye:

Filtro de organización — Ver y administrar guardrail para organizaciones específicas dentro de Enterprise
Guardrail preestablecidos — Habilitar o deshabilitar los guardrail disponibles y elegir la acción que se debe tomar en caso de violación (log_only, warn_user, block_message o kill_session)
Enlaces de sesión — Cada evento de guardrail se vincula con la sesión de origen para su investigación

Guardrail Events

Cuando se activa un guardrail, Devin registra el evento con detalles que incluyen:

El mensaje del usuario que activó el guardrail
La regla de guardrail que coincidió
La acción realizada (log_only, warn_user, block_message o kill_session)
Un enlace a la sesión donde ocurrió el evento

Los eventos de guardrail aparecen en los registros de auditoría con el tipo de acción ai_guardrail_violation, lo que permite el monitoreo y las alertas automatizados. También puedes recuperar eventos de guardrail de forma programática mediante la API de infracciones de guardrails.

Casos de uso

Las configuraciones de guardrails más comunes incluyen:

Detección de prompt injection — Identificar y bloquear mensajes de usuario que intentan anular las instrucciones de Devin o manipular su comportamiento
Prevención de exfiltración de datos — Marcar o bloquear mensajes que intentan instruir a Devin para que envíe datos sensibles a destinos no autorizados
Garantizar el cumplimiento de políticas — Analizar las solicitudes de los usuarios para asegurarse de que se alineen con las políticas de seguridad y uso de la organización

AI Guardrails es una funcionalidad de Enterprise. Ponte en contacto con tu equipo de cuentas para obtener más información sobre cómo habilitar guardrails para tu organización.

​Overview

​Configuring Guardrails

​Guardrail Events

​Casos de uso

Overview

Configuring Guardrails

Guardrail Events

Casos de uso