AI Guardrails - Devin Docs

AI Guardrails ermöglichen Enterprise-Administrator:innen, Guardrails dafür zu definieren, wie Nutzer:innen organisationsweit mit Devin interagieren. Die Guardrails prüfen eingehende Nutzernachrichten automatisch – einschließlich erster Nachrichten, Folgenachrichten und Kommentaren in Pull Requests (PRs) – um Prompt-Injection, Versuche zur Datenexfiltration und Richtlinienverstöße zu erkennen, bevor Devin sie verarbeitet.

Überblick

Guardrails fungieren als zusätzliche Kontrollinstanz für Nachrichten, die an Devin gesendet werden. Sie analysieren Nutzernachrichten in Echtzeit und können:

Verdächtige Nachrichten protokollieren zur Überprüfung (log_only)
Den Benutzer warnen mit einem sichtbaren Banner, während die Nachricht weiterhin verarbeitet wird (warn_user)
Nachrichten blockieren, die gegen Richtlinien der Organisation verstoßen (block_message)
Die Sitzung vollständig beenden, wenn ein kritischer Verstoß erkannt wird (kill_session)

Konfiguration von Guardrails

Enterprise-Administratoren können Guardrails über die Enterprise-Einstellungsseite oder die Organisationseinstellungsseite unter Settings > Guardrails konfigurieren. Die Guardrails-Konfigurationsseite bietet:

Organisationsfilter — Anzeigen und Verwalten von Guardrails für bestimmte Organisationen innerhalb der Enterprise-Umgebung
Vordefinierte Guardrails — Aktivieren oder Deaktivieren verfügbarer Guardrails und auswählen der Aktion bei Verstößen (log_only, warn_user, block_message oder kill_session)
Sitzungslinks — Jedes Guardrail-Ereignis führt zur weiteren Untersuchung zurück zur ursprünglichen Sitzung

Guardrail-Ereignisse

Wenn ein Guardrail ausgelöst wird, protokolliert Devin das Ereignis mit Details, einschließlich:

der Nutzernachricht, die das Guardrail ausgelöst hat
der Guardrail-Regel, auf die es zutraf
der ergriffenen Aktion (log_only, warn_user, block_message oder kill_session)
einem Link zu der Sitzung, in der das Ereignis aufgetreten ist

Guardrail-Ereignisse erscheinen in den Audit-Logs mit dem Aktionstyp ai_guardrail_violation und ermöglichen automatisierte Überwachung und Benachrichtigungen. Sie können Guardrail-Ereignisse auch programmgesteuert über die API für Guardrail-Verstöße abrufen.

Anwendungsfälle

Zu den gängigen Guardrail-Konfigurationen gehören:

Erkennung von Prompt-Injection — Erkennen und Blockieren von Nutzernachrichten, die versuchen, Devins Anweisungen zu überschreiben oder sein Verhalten zu manipulieren
Verhinderung von Datenexfiltration — Markieren oder Blockieren von Nachrichten, die versuchen, Devin anzuweisen, vertrauliche Daten an nicht autorisierte Ziele zu senden
Durchsetzung der Einhaltung von Richtlinien — Überprüfen von Nutzeranfragen, um sicherzustellen, dass sie mit den Sicherheits- und Nutzungsrichtlinien der Organisation übereinstimmen

AI Guardrails ist eine Enterprise-Funktion. Wenden Sie sich an Ihr Account-Team, um mehr darüber zu erfahren, wie Sie Guardrails für Ihre Organisation aktivieren können.

​Überblick

​Konfiguration von Guardrails

​Guardrail-Ereignisse

​Anwendungsfälle

Überblick

Konfiguration von Guardrails

Guardrail-Ereignisse

Anwendungsfälle