概要
- 不審なメッセージをレビュー用に記録する (
log_only) - メッセージの処理は継続しつつ、表示バナーでユーザーに警告する (
warn_user) - 組織のポリシーに違反するメッセージをブロックする (
block_message) - 重大な違反が検出された場合、セッションを完全に終了する (
kill_session)
ガードレールの設定
- Organization フィルター — Enterprise 内の特定の組織に対するガードレールを表示および管理する
- プリセット ガードレール — 利用可能なガードレールを有効または無効にし、違反時のアクション (
log_only、warn_user、block_message、kill_sessionのいずれか) を選択する - セッションリンク — 各ガードレールイベントには、調査のための元のセッションへのリンクが含まれる
ガードレールイベント
- ガードレールをトリガーしたユーザーメッセージ
- 一致したガードレールルール
- 実行されたアクション (
log_only、warn_user、block_message、kill_sessionのいずれか) - イベントが発生したセッションへのリンク
ai_guardrail_violation アクション種別として 監査ログ に表示され、自動監視やアラート通知を自動化できます。guardrail violations API を通じて、ガードレールイベントをプログラムから取得することもできます。
ユースケース
- プロンプトインジェクションの検出 — Devin の指示を上書きしたり、その挙動を操作しようとするユーザーメッセージを特定してブロックする
- データ持ち出しの防止 — Devin に対して機密データを許可されていない送信先に送るよう指示しようとするユーザーメッセージを検知し、フラグ付けまたはブロックする
- ポリシー遵守の徹底 — ユーザーリクエストをスクリーニングし、組織のセキュリティおよび利用ポリシーに沿っていることを確認する
AI Guardrails は Enterprise 向け機能です。組織でガードレールを有効化する方法については、アカウントチームまでお問い合わせください。

