复杂系统引入 AI 的工程治理:分级、成本与回退策略
目录
背景
复杂系统引入 AI 的最大风险并非“效果不够好”,而是:
- 输出不稳定导致体验波动
- 依赖链拉长导致线上不确定性上升
- 成本不可控(调用量与 token 消耗)
- 缺乏回退机制导致事故扩大
因此需要把 AI 当成一种“工程能力模块”,纳入治理体系。
1. 能力分级:先决定“用不用、用在哪”
建议按风险把场景分三档:
- 低风险:内容摘要、帮助说明、检索辅助
- 中风险:规则解释、提示文案优化(基于结构化事实)
- 高风险:核心决策、资金/权限相关结论(原则上禁用)
分级不是文档,而是要落到开关与权限策略上:不同页面/角色可启用不同能力。
2. 统一接入层:把不确定性收敛到一个地方
建议统一封装 AI 调用:
- 超时控制(避免卡住主流程)
- 限流与预算(按用户/模块/时间窗)
- 缓存(相同输入复用输出)
- 降级(失败回退到规则/模板)
- 日志(输入与输出脱敏存档)
统一接入层的目标:即使换模型/换供应商,业务层也不需要大改。
3. 输出约束:从“自由生成”到“受限生成”
工程可控的关键:让 AI 输出处在可验证范围内。常用手段:
- 结构化输入:只给事实与允许的选项
- 格式约束:JSON/固定段落结构
- 词库治理:术语表、短语库、禁用词
- 校验失败回退:不通过就不展示 AI 结果
4. 成本治理:把 AI 当成一种资源
建议建立三层成本控制:
- 业务层:只在“确实节省成本/提升体验”的场景使用
- 工程层:缓存、去重、减少重复调用
- 策略层:按模块预算、按角色限额、按时间窗限流
成本控制做得好,AI 才能长期运行,而不是“试点一阵就下线”。
5. 回退策略:可用性比智能更重要
回退策略建议至少包含:
- 单次失败回退:本次调用失败 -> 使用模板/规则结果
- 全局开关回退:线上异常 -> 一键关闭 AI 能力
- 体验回退:低置信度 -> 优先展示引用与原始结果
原则:AI 只能增强,不得成为唯一依赖。
总结
复杂系统引入 AI 的正确打开方式是“工程化治理”:
- 分级决定边界
- 统一接入收敛不确定性
- 受限生成保障可控
- 成本治理保证可持续
- 回退策略保证稳定性
当 AI 成为可替换、可回退、可审计的能力模块,才适合在长期系统中持续演进。