目录

复杂系统引入 AI 的工程治理:分级、成本与回退策略

背景

复杂系统引入 AI 的最大风险并非“效果不够好”,而是:

  • 输出不稳定导致体验波动
  • 依赖链拉长导致线上不确定性上升
  • 成本不可控(调用量与 token 消耗)
  • 缺乏回退机制导致事故扩大

因此需要把 AI 当成一种“工程能力模块”,纳入治理体系。


1. 能力分级:先决定“用不用、用在哪”

建议按风险把场景分三档:

  • 低风险:内容摘要、帮助说明、检索辅助
  • 中风险:规则解释、提示文案优化(基于结构化事实)
  • 高风险:核心决策、资金/权限相关结论(原则上禁用)

分级不是文档,而是要落到开关与权限策略上:不同页面/角色可启用不同能力。


2. 统一接入层:把不确定性收敛到一个地方

建议统一封装 AI 调用:

  • 超时控制(避免卡住主流程)
  • 限流与预算(按用户/模块/时间窗)
  • 缓存(相同输入复用输出)
  • 降级(失败回退到规则/模板)
  • 日志(输入与输出脱敏存档)

统一接入层的目标:即使换模型/换供应商,业务层也不需要大改。


3. 输出约束:从“自由生成”到“受限生成”

工程可控的关键:让 AI 输出处在可验证范围内。常用手段:

  • 结构化输入:只给事实与允许的选项
  • 格式约束:JSON/固定段落结构
  • 词库治理:术语表、短语库、禁用词
  • 校验失败回退:不通过就不展示 AI 结果

4. 成本治理:把 AI 当成一种资源

建议建立三层成本控制:

  • 业务层:只在“确实节省成本/提升体验”的场景使用
  • 工程层:缓存、去重、减少重复调用
  • 策略层:按模块预算、按角色限额、按时间窗限流

成本控制做得好,AI 才能长期运行,而不是“试点一阵就下线”。


5. 回退策略:可用性比智能更重要

回退策略建议至少包含:

  • 单次失败回退:本次调用失败 -> 使用模板/规则结果
  • 全局开关回退:线上异常 -> 一键关闭 AI 能力
  • 体验回退:低置信度 -> 优先展示引用与原始结果

原则:AI 只能增强,不得成为唯一依赖。


总结

复杂系统引入 AI 的正确打开方式是“工程化治理”:

  • 分级决定边界
  • 统一接入收敛不确定性
  • 受限生成保障可控
  • 成本治理保证可持续
  • 回退策略保证稳定性

当 AI 成为可替换、可回退、可审计的能力模块,才适合在长期系统中持续演进。