识别值得沉淀为操作手册的故障会话
在解决一次生产故障后,你会得到一份 Devin 会话记录,里面完整记录了每一步诊断操作、执行的每条命令,以及在压力下做出的每个决策。这份记录就是为值班团队制作可复用操作手册的原材料,下次可以直接套用。不是每次故障会话都适合写成操作手册。重点关注 Devin 遵循了清晰、可重复方法论的会话——也就是你们团队经常遇到的那类故障:
- 内存泄漏——识别泄漏源头、应用修复、在发布后验证堆内存使用情况是否恢复正常
- 连接池耗尽——追踪根因、调优连接池参数、补充监控
- 级联超时——隔离故障上游、添加熔断器、验证恢复效果
在高级模式中创建操作手册
打开 Devin 主页,点击输入框下方的 Advanced 按钮。选择 Create Playbook 标签页。粘贴故障会话链接,并描述操作手册应该覆盖的内容。要把泛化范围说清楚——操作手册应该适用于这一类故障,而不只是当前这个出问题的服务。如果你有多次相同类型的已解决故障(例如两次不同的内存泄漏会话),可以把它们都加进去。Devin 会识别跨会话的共性模式,生成更加健壮的操作手册。
在下一次故障中验证效果
真正的检验标准,是这个操作手册能否在不同但同一类别的故障中奏效。当下一次内存问题出现时,新建一个 Devin 会话,附加这个操作手册,并指向受影响的服务。如果会话能够顺利解决故障,说明你的操作手册泛化得很好。如果遇到困难——比如泄漏模式不同,或者服务使用了不同的数据库驱动——就把这次会话重新输入到高级模式中,使用 Improve Playbook 标签页来弥补缺口。关于该工作流,可以参考修复不稳定的数据库迁移操作手册。
