<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>审计 on Saiga</title>
    <link>http://localhost:1313/tags/%E5%AE%A1%E8%AE%A1/</link>
    <description>Recent content in 审计 on Saiga</description>
    <generator>Hugo</generator>
    <language>zh-cn</language>
    <managingEditor>wuwenzen@outlook.com (wuwj)</managingEditor>
    <webMaster>wuwenzen@outlook.com (wuwj)</webMaster>
    <lastBuildDate>Mon, 05 Jun 2023 00:00:00 +0000</lastBuildDate>
    <atom:link href="http://localhost:1313/tags/%E5%AE%A1%E8%AE%A1/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>调用大模型 API 的几个最佳实践：重试、降级与审计</title>
      <link>http://localhost:1313/posts/2023-06-05-ai-api-best-practices/</link>
      <pubDate>Mon, 05 Jun 2023 00:00:00 +0000</pubDate><author>wuwenzen@outlook.com (wuwj)</author>
      <guid>http://localhost:1313/posts/2023-06-05-ai-api-best-practices/</guid>
      <description>&lt;p&gt;刚开始用大模型 API 时，大家一般关心的是：&lt;/p&gt;&#xA;&lt;blockquote&gt;&#xA;&lt;p&gt;这个模型效果好不好？回答聪不聪明？&lt;/p&gt;&#xA;&lt;/blockquote&gt;&#xA;&lt;p&gt;但当你真的把它作为「线上能力」接入产品时，会发现很多工程问题：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;API 偶尔超时 / 报错怎么办？&lt;/li&gt;&#xA;&lt;li&gt;费用怎么控？&lt;/li&gt;&#xA;&lt;li&gt;返回内容里如果有敏感信息怎么办？&lt;/li&gt;&#xA;&lt;li&gt;出了问题，怎么排查某次请求？&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;这篇文章就是从这些「落地问题」出发，整理几条接入大模型 API 的最佳实践。&lt;/p&gt;&#xA;&lt;hr&gt;&#xA;&lt;h2 id=&#34;1-超时与重试别把前端一直挂着&#34;&gt;1. 超时与重试：别把前端一直挂着&lt;/h2&gt;&#xA;&lt;h3 id=&#34;11-超时要有明确上限&#34;&gt;1.1 超时要有明确上限&lt;/h3&gt;&#xA;&lt;p&gt;大模型生成本身需要时间，如果不设超时，前端可能会一直转圈。&lt;br&gt;&#xA;我们一般做法：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;在 BFF / 中间层对每个调用设定超时时间（例如 10–15 秒）；&lt;/li&gt;&#xA;&lt;li&gt;超时后直接返回「超时错误」，由前端给出友好提示；&lt;/li&gt;&#xA;&lt;li&gt;前端也设置请求超时，避免被挂死。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;h3 id=&#34;12-重试策略&#34;&gt;1.2 重试策略&lt;/h3&gt;&#xA;&lt;p&gt;常见错误类型：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;临时网络抖动；&lt;/li&gt;&#xA;&lt;li&gt;API 限流（429）；&lt;/li&gt;&#xA;&lt;li&gt;服务端偶发异常。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;对&lt;strong&gt;幂等请求&lt;/strong&gt;（比如生成建议文案），我们采用：&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&lt;strong&gt;指数退避重试&lt;/strong&gt;：例如最多重试 2 次，间隔 500ms / 1000ms；&lt;/li&gt;&#xA;&lt;li&gt;遇到某些错误码（如 4xx 中的参数错误）不重试。&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;伪代码：&lt;/p&gt;&#xA;&lt;div class=&#34;highlight&#34;&gt;&lt;pre tabindex=&#34;0&#34; style=&#34;color:#f8f8f2;background-color:#272822;-moz-tab-size:4;-o-tab-size:4;tab-size:4;&#34;&gt;&lt;code class=&#34;language-ts&#34; data-lang=&#34;ts&#34;&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&lt;span style=&#34;color:#66d9ef&#34;&gt;async&lt;/span&gt; &lt;span style=&#34;color:#66d9ef&#34;&gt;function&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;callLLMWithRetry&lt;/span&gt;(&lt;span style=&#34;color:#a6e22e&#34;&gt;payload&lt;/span&gt;) {&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#66d9ef&#34;&gt;const&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;maxRetry&lt;/span&gt; &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;2&lt;/span&gt;;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#66d9ef&#34;&gt;let&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;attempt&lt;/span&gt; &lt;span style=&#34;color:#f92672&#34;&gt;=&lt;/span&gt; &lt;span style=&#34;color:#ae81ff&#34;&gt;0&lt;/span&gt;;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  &lt;span style=&#34;color:#66d9ef&#34;&gt;while&lt;/span&gt; (&lt;span style=&#34;color:#66d9ef&#34;&gt;true&lt;/span&gt;) {&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    &lt;span style=&#34;color:#66d9ef&#34;&gt;try&lt;/span&gt; {&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#66d9ef&#34;&gt;return&lt;/span&gt; &lt;span style=&#34;color:#66d9ef&#34;&gt;await&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;callLLM&lt;/span&gt;(&lt;span style=&#34;color:#a6e22e&#34;&gt;payload&lt;/span&gt;);&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    } &lt;span style=&#34;color:#66d9ef&#34;&gt;catch&lt;/span&gt; (&lt;span style=&#34;color:#a6e22e&#34;&gt;e&lt;/span&gt;: &lt;span style=&#34;color:#66d9ef&#34;&gt;any&lt;/span&gt;) {&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#66d9ef&#34;&gt;if&lt;/span&gt; (&lt;span style=&#34;color:#f92672&#34;&gt;!&lt;/span&gt;&lt;span style=&#34;color:#a6e22e&#34;&gt;isRetryableError&lt;/span&gt;(&lt;span style=&#34;color:#a6e22e&#34;&gt;e&lt;/span&gt;) &lt;span style=&#34;color:#f92672&#34;&gt;||&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;attempt&lt;/span&gt; &lt;span style=&#34;color:#f92672&#34;&gt;&amp;gt;=&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;maxRetry&lt;/span&gt;) {&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;        &lt;span style=&#34;color:#66d9ef&#34;&gt;throw&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;e&lt;/span&gt;;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      }&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#a6e22e&#34;&gt;attempt&lt;/span&gt;&lt;span style=&#34;color:#f92672&#34;&gt;++&lt;/span&gt;;&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;      &lt;span style=&#34;color:#66d9ef&#34;&gt;await&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;sleep&lt;/span&gt;(&lt;span style=&#34;color:#ae81ff&#34;&gt;500&lt;/span&gt; &lt;span style=&#34;color:#f92672&#34;&gt;*&lt;/span&gt; &lt;span style=&#34;color:#a6e22e&#34;&gt;attempt&lt;/span&gt;);&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;    }&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;  }&#xA;&lt;/span&gt;&lt;/span&gt;&lt;span style=&#34;display:flex;&#34;&gt;&lt;span&gt;}&#xA;&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/div&gt;&lt;hr&gt;&#xA;&lt;h2 id=&#34;2-降级模型不可用时要有备胎&#34;&gt;2. 降级：模型不可用时要有「备胎」&lt;/h2&gt;&#xA;&lt;p&gt;大模型 API 作为外部依赖，不可能 100% 可用。&lt;br&gt;&#xA;因此建议设计「降级方案」：&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
