<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>API调用 | 林子杨的个人网站</title><link>https://ziyanglin.netlify.app/zh/tags/api%E8%B0%83%E7%94%A8/</link><atom:link href="https://ziyanglin.netlify.app/zh/tags/api%E8%B0%83%E7%94%A8/index.xml" rel="self" type="application/rss+xml"/><description>API调用</description><generator>Source Themes Academic (https://sourcethemes.com/academic/)</generator><language>zh-Hans</language><lastBuildDate>Fri, 27 Jun 2025 03:00:00 +0000</lastBuildDate><image><url>https://ziyanglin.netlify.app/img/icon-192.png</url><title>API调用</title><link>https://ziyanglin.netlify.app/zh/tags/api%E8%B0%83%E7%94%A8/</link></image><item><title>大型语言模型超参数调优指南：从生成到部署的全面解析</title><link>https://ziyanglin.netlify.app/zh/post/llm-hyperparameters-documentation/</link><pubDate>Fri, 27 Jun 2025 03:00:00 +0000</pubDate><guid>https://ziyanglin.netlify.app/zh/post/llm-hyperparameters-documentation/</guid><description>&lt;h2 id="heading">引言&lt;/h2>
&lt;h2 id="span-stylefontsize-09emllm-vllm--openai--apisampling--servingspan">&lt;span style="font-size: 0.9em;">大型语言模型（LLM）的强大能力背后，是一系列复杂的超参数在&amp;quot;默默奉献&amp;rdquo;。无论是在本地部署一个像 vLLM 一样的推理服务，还是调用 OpenAI 的 API，精确地调整这些参数对于获得理想的性能、成本和输出质量至关重要。这份文档将&amp;quot;掰开了，揉碎了&amp;quot;地深入解析两大类关键超参数：&lt;strong>生成（Sampling）超参数&lt;/strong> 和 &lt;strong>部署（Serving）超参数&lt;/strong>，帮助你完全掌握它们的作用、取值、影响以及在不同场景下的最佳实践。&lt;/span>&lt;/h2>
&lt;h3 id="sampling">第一部分：生成（Sampling）超参数——掌控模型的创造力与确定性&lt;/h3>
&lt;p>生成超参数直接控制模型在生成下一个 token 时的行为。它们主要围绕着一个核心问题：如何在模型给出的成千上万个可能的下一个词的概率分布中进行选择。&lt;/p>
&lt;h3 id="1-temperature-">1. &lt;code>temperature&lt;/code> (温度)&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 控制生成文本的随机性。&lt;code>temperature&lt;/code> 越高，随机性越强，回答越具创造性和多样性；&lt;code>temperature&lt;/code> 越低，随机性越弱，回答越趋于确定性和保守。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理：&lt;/strong>
在生成下一个 token 时，模型会为词汇表中的所有词计算一个 &lt;code>logits&lt;/code>（原始的、未归一化的预测分数）。通常，我们会使用 &lt;code>Softmax&lt;/code> 函数将这些 &lt;code>logits&lt;/code> 转换成一个概率分布。&lt;code>temperature&lt;/code> 参数在 &lt;code>Softmax&lt;/code> 计算之前被引入，它会&amp;quot;平滑&amp;quot;或&amp;quot;锐化&amp;quot;这个概率分布。&lt;/p>
&lt;p>标准的 Softmax 公式是： &lt;code>P(i) = exp(logit_i) / Σ_j(exp(logit_j))&lt;/code>&lt;/p>
&lt;p>引入 &lt;code>temperature&lt;/code> (T) 后的公式是：&lt;code>P(i) = exp(logit_i / T) / Σ_j(exp(logit_j / T))&lt;/code>&lt;/p>
&lt;ul>
&lt;li>当 &lt;code>T&lt;/code> -&amp;gt; 0 时，&lt;code>logit_i / T&lt;/code> 的差异会急剧拉大。拥有最高 logit 的那个 token 的概率会无限接近 1，而其他所有 token 的概率会无限接近 0。这使得模型几乎总是选择最有可能的那个词，表现得非常确定和&amp;quot;贪心&amp;rdquo;。&lt;/li>
&lt;li>当 &lt;code>T&lt;/code> = 1 时，公式回归标准 Softmax，模型的行为就是其&amp;quot;原始&amp;quot;状态。&lt;/li>
&lt;li>当 &lt;code>T&lt;/code> &amp;gt; 1 时，&lt;code>logit_i / T&lt;/code> 的差异会被缩小。原本概率较低的 token 的概率会被提升，整个概率分布变得更加&amp;quot;平坦&amp;rdquo;。这增加了模型选择到不那么常见的词的几率，从而引入了更多的随机性和创造性。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与建议：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> &lt;code>[0.0, 2.0]&lt;/code> (理论上可以更高, 但 OpenAI API 通常限制在 2.0)。&lt;/li>
&lt;li>&lt;strong>&lt;code>temperature&lt;/code> = 0.0:&lt;/strong> 适用于需要确定性、可复现和高准确度输出的场景。例如：代码生成、事实问答、文本分类、数据提取。每次输入相同，输出也几乎完全相同（除非模型本身有更新）。&lt;/li>
&lt;li>&lt;strong>低 &lt;code>temperature&lt;/code> (例如 &lt;code>0.1&lt;/code> - &lt;code>0.4&lt;/code>):&lt;/strong> 适用于需要严谨、忠于原文的半创作性任务。例如：文章摘要、翻译、客服机器人。输出会略有变化，但大体上忠实于核心内容。&lt;/li>
&lt;li>&lt;strong>中等 &lt;code>temperature&lt;/code> (例如 &lt;code>0.5&lt;/code> - &lt;code>0.8&lt;/code>):&lt;/strong> 创造性与一致性的良好平衡点，是大多数应用场景的默认和推荐值。例如：撰写邮件、市场文案、头脑风暴。&lt;/li>
&lt;li>&lt;strong>高 &lt;code>temperature&lt;/code> (例如 &lt;code>0.9&lt;/code> - &lt;code>1.5&lt;/code>):&lt;/strong> 适用于高度创造性的任务。例如：写诗、创作故事、生成对话脚本。输出会非常多样，甚至可能出人意料，但有时也可能产生无意义或不连贯的内容。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>注意事项:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;code>temperature&lt;/code> 和 &lt;code>top_p&lt;/code> 通常不建议同时修改，最好只调整其中一个。OpenAI 的文档也明确指出，通常建议只修改其中之一。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="2-topp-">2. &lt;code>top_p&lt;/code> (核心采样)&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 通过保留一个累积概率阈值（&lt;code>p&lt;/code>）内的最高概率词汇，来动态地决定采样池的大小，从而控制生成的多样性。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理：&lt;/strong>
&lt;code>top_p&lt;/code> 是一种比 &lt;code>temperature&lt;/code> 更智能的采样策略，也称为 &lt;strong>核心采样 (Nucleus Sampling)&lt;/strong>。它不是调整所有 token 的概率，而是直接划定一个&amp;quot;核心&amp;quot;候选集。&lt;/p>
&lt;p>具体步骤如下：&lt;/p>
&lt;ol>
&lt;li>模型计算出所有候选 token 的概率分布。&lt;/li>
&lt;li>将所有 token 按概率从高到低排序。&lt;/li>
&lt;li>从概率最高的 token 开始，依次累加它们的概率，直到这个累积概率总和超过设定的 &lt;code>top_p&lt;/code> 阈值。&lt;/li>
&lt;li>所有被累加过的这些 token 构成了采样的&amp;quot;核心集合&amp;rdquo;（nucleus）。&lt;/li>
&lt;li>模型将只从这个核心集合中进行采样（通常会重新归一化它们的概率），所有其他 token 将被忽略。&lt;/li>
&lt;/ol>
&lt;p>&lt;strong>举个例子：&lt;/strong> 假设 &lt;code>top_p&lt;/code> = &lt;code>0.9&lt;/code>。&lt;/p>
&lt;ul>
&lt;li>如果概率最高的 token &amp;ldquo;the&amp;rdquo; 的概率是 &lt;code>0.95&lt;/code>，那么核心集合里就只有 &amp;ldquo;the&amp;rdquo; 这一个词，模型会 100% 选择它。&lt;/li>
&lt;li>如果 &amp;ldquo;the&amp;rdquo; 的概率是 &lt;code>0.5&lt;/code>，&amp;ldquo;a&amp;rdquo; 的概率是 &lt;code>0.3&lt;/code>，&amp;ldquo;an&amp;rdquo; 的概率是 &lt;code>0.1&lt;/code>，那么这三个词的累积概率是 &lt;code>0.9&lt;/code>。核心集合就包含 {&amp;ldquo;the&amp;rdquo;, &amp;ldquo;a&amp;rdquo;, &amp;ldquo;an&amp;rdquo;}。模型将从这三个词中按其（重新归一化的）概率进行采样。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与建议：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> &lt;code>(0.0, 1.0]&lt;/code>。&lt;/li>
&lt;li>&lt;strong>&lt;code>top_p&lt;/code> = 1.0:&lt;/strong> 意味着模型会考虑所有 token，不进行任何截断（等同于没有 &lt;code>top_p&lt;/code>）。&lt;/li>
&lt;li>&lt;strong>高 &lt;code>top_p&lt;/code> (例如 &lt;code>0.9&lt;/code> - &lt;code>1.0&lt;/code>):&lt;/strong> 允许更多样化的选择，适用于创造性任务，效果类似于较高的 &lt;code>temperature&lt;/code>。&lt;/li>
&lt;li>&lt;strong>低 &lt;code>top_p&lt;/code> (例如 &lt;code>0.1&lt;/code> - &lt;code>0.3&lt;/code>):&lt;/strong> 极大地限制了模型的选择范围，使其输出非常确定和保守，效果类似于极低的 &lt;code>temperature&lt;/code>。&lt;/li>
&lt;li>&lt;strong>通用建议值:&lt;/strong> &lt;code>0.9&lt;/code> 是一个非常常见的默认值，因为它在保持高质量的同时，也允许一定的多样性。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>&lt;code>top_p&lt;/code> vs &lt;code>temperature&lt;/code>:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;code>top_p&lt;/code> 更加动态和自适应。在模型对下一步非常确信时（概率分布很尖锐），&lt;code>top_p&lt;/code> 会自动缩小候选集，保证质量。在模型不那么确信时（概率分布很平坦），它会扩大候选集，增加多样性。&lt;/li>
&lt;li>&lt;code>temperature&lt;/code> 则是&amp;quot;一视同仁&amp;quot;地调整整个分布，不管分布本身是尖锐还是平坦。&lt;/li>
&lt;li>因此，&lt;code>top_p&lt;/code> 通常被认为是比 &lt;code>temperature&lt;/code> 更安全、更鲁棒的控制多样性的方法。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="3-topk">3. &lt;code>top_k&lt;/code>&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 简单粗暴地只从概率最高的 &lt;code>k&lt;/code> 个 token 中进行采样。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理：&lt;/strong> 这是最简单的截断采样方法。直接选择概率最高的 &lt;code>k&lt;/code> 个 token，组成候选集，然后从这 &lt;code>k&lt;/code> 个 token 中进行采样。所有其他 token 都被忽略。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与建议：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> 整数，例如 &lt;code>1&lt;/code>, &lt;code>10&lt;/code>, &lt;code>50&lt;/code>。&lt;/li>
&lt;li>&lt;strong>&lt;code>top_k&lt;/code> = 1:&lt;/strong> 等同于贪心搜索，总是选择最有可能的词。&lt;/li>
&lt;li>&lt;strong>建议:&lt;/strong> &lt;code>top_k&lt;/code> 通常不作为首选的采样策略，因为它太&amp;quot;死板&amp;rdquo;。在某些概率分布非常平坦的情况下，它可能会意外地排除掉很多合理的词；而在分布非常尖锐时，它又可能包含进很多概率极低的无用词。&lt;code>top_p&lt;/code> 通常是更好的选择。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="4-repetitionpenalty-">4. &lt;code>repetition_penalty&lt;/code> (重复惩罚)&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 对在上下文中已经出现过的 token 施加惩罚，以降低它们再次被选中的概率，从而减少重复内容。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理：&lt;/strong> 在计算 &lt;code>logits&lt;/code> 后，但在 &lt;code>Softmax&lt;/code> 之前，该参数会遍历所有候选 token。如果一个 token 已经在之前的上下文中出现过，它的 &lt;code>logit&lt;/code> 值就会被降低（通常是除以 &lt;code>repetition_penalty&lt;/code> 的值）。&lt;/p>
&lt;p>&lt;code>new_logit = logit / penalty&lt;/code> (如果 token 已出现)
&lt;code>new_logit = logit&lt;/code> (如果 token 未出现)&lt;/p>
&lt;p>这样，已经出现过的词的最终概率就会下降。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与建议：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> &lt;code>1.0&lt;/code> 到 &lt;code>2.0&lt;/code> 之间比较常见。&lt;/li>
&lt;li>&lt;strong>&lt;code>1.0&lt;/code>:&lt;/strong> 不施加任何惩罚 (默认值)。&lt;/li>
&lt;li>&lt;strong>&lt;code>1.1&lt;/code> - &lt;code>1.3&lt;/code>:&lt;/strong> 是一个比较安全的范围，可以有效减少不必要的重复，而不过度影响正常的语言表达（比如必要的冠词 &amp;ldquo;the&amp;rdquo;）。&lt;/li>
&lt;li>&lt;strong>过高的值:&lt;/strong> 可能会导致模型刻意回避常用词，产生不自然甚至奇怪的句子。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="5-frequencypenalty--presencepenalty-">5. &lt;code>frequency_penalty&lt;/code> &amp;amp; &lt;code>presence_penalty&lt;/code> (频率与存在感惩罚)&lt;/h3>
&lt;p>这两个参数是 &lt;code>repetition_penalty&lt;/code> 的更精细化版本。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>&lt;code>presence_penalty&lt;/code> (存在感惩罚):&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>作用:&lt;/strong> 对所有在上下文中 &lt;strong>至少出现过一次&lt;/strong> 的 token 施加一个固定的惩罚。它不关心这个 token 出现了多少次，只要出现过，就惩罚。&lt;/li>
&lt;li>&lt;strong>底层原理:&lt;/strong> &lt;code>new_logit = logit - presence_penalty&lt;/code> (如果 token 至少出现过一次)。&lt;/li>
&lt;li>&lt;strong>场景:&lt;/strong> 当你想鼓励模型引入全新的概念和词汇，而不是反复讨论已经提到过的话题时，这个参数很有用。&lt;/li>
&lt;li>&lt;strong>范围:&lt;/strong> &lt;code>0.0&lt;/code> 到 &lt;code>2.0&lt;/code>。正值会惩罚新 token，负值会鼓励。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>&lt;code>frequency_penalty&lt;/code> (频率惩罚):&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>作用:&lt;/strong> 惩罚的大小与 token 在上下文中出现的 &lt;strong>频率&lt;/strong> 成正比。一个词出现的次数越多，它受到的惩罚就越重。&lt;/li>
&lt;li>&lt;strong>底层原理:&lt;/strong> &lt;code>new_logit = logit - count(token) * frequency_penalty&lt;/code>。&lt;/li>
&lt;li>&lt;strong>场景:&lt;/strong> 当你发现模型倾向于反复使用某些特定的高频词（即使它们是必要的），导致语言单调时，这个参数可以有效降低这些词的概率。&lt;/li>
&lt;li>&lt;strong>范围:&lt;/strong> &lt;code>0.0&lt;/code> 到 &lt;code>2.0&lt;/code>。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>总结:&lt;/strong> &lt;code>presence_penalty&lt;/code> 解决&amp;quot;是否出现过&amp;quot;的问题，&lt;code>frequency_penalty&lt;/code> 解决&amp;quot;出现了多少次&amp;quot;的问题。&lt;/p>
&lt;/li>
&lt;/ul>
&lt;h3 id="6-seed-">6. &lt;code>seed&lt;/code> (随机种子)&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 通过提供一个固定的 &lt;code>seed&lt;/code>，可以使得在其他参数（如 &lt;code>temperature&lt;/code>）相同的情况下，模型的输出是可复现的。&lt;/p>
&lt;ul>
&lt;li>&lt;strong>作用:&lt;/strong> 在机器学习中，很多操作看似随机，实则是&amp;quot;伪随机&amp;rdquo;，它们由一个初始的&amp;quot;种子&amp;quot;决定。设置相同的种子，就能得到相同的随机数序列。在 LLM 中，这意味着采样过程将是完全确定的。&lt;/li>
&lt;li>&lt;strong>场景:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>调试与测试:&lt;/strong> 当你需要验证某个改动是否影响了输出时，固定 &lt;code>seed&lt;/code> 可以排除随机性干扰。&lt;/li>
&lt;li>&lt;strong>可复现的研究:&lt;/strong> 在学术研究中，可复现性至关重要。&lt;/li>
&lt;li>&lt;strong>生成一致性内容:&lt;/strong> 当你需要模型对同一输入始终产生相同风格的输出时。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;strong>注意:&lt;/strong> 要想完全复现，&lt;strong>所有&lt;/strong> 生成参数（&lt;code>prompt&lt;/code>, &lt;code>model&lt;/code>, &lt;code>temperature&lt;/code>, &lt;code>top_p&lt;/code> 等）都必须完全相同。&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h3 id="serving">第二部分：部署（Serving）超参数——优化服务的性能与容量&lt;/h3>
&lt;p>部署超参数决定了 LLM 推理服务如何管理 GPU 资源、处理并发请求以及优化整体吞吐量和延迟。这些参数在 vLLM 这样的高性能推理引擎中尤为重要。&lt;/p>
&lt;h3 id="1-gpumemoryutilization">1. &lt;code>gpu_memory_utilization&lt;/code>&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 控制 vLLM 可以使用的 GPU 显存的比例，核心用途是为 &lt;strong>KV Cache&lt;/strong> 预留空间。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理 (PagedAttention):&lt;/strong>
vLLM 的核心是 PagedAttention 机制。传统的注意力机制会为每个请求预分配一个连续的、最大长度的显存空间来存储 Key-Value (KV) Cache。这导致了严重的内存浪费，因为大部分请求的长度都远小于最大长度。&lt;/p>
&lt;p>PagedAttention 将 KV Cache 像操作系统的虚拟内存一样进行管理：&lt;/p>
&lt;ol>
&lt;li>它将每个序列的 KV Cache 拆分成很多小的、固定大小的&amp;quot;块&amp;rdquo;（Block）。&lt;/li>
&lt;li>这些块可以非连续地存储在 GPU 显存中。&lt;/li>
&lt;li>一个中央的&amp;quot;块管理器&amp;rdquo;（Block Manager）负责分配和释放这些块。&lt;/li>
&lt;/ol>
&lt;p>&lt;code>gpu_memory_utilization&lt;/code> 正是告诉 vLLM：&amp;ldquo;你可以用掉总显存的这么多比例来自由管理（主要是存放模型权重和 KV Cache 的物理块）&amp;quot;。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与影响：&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> &lt;code>(0.0, 1.0]&lt;/code>。&lt;/li>
&lt;li>&lt;strong>默认值:&lt;/strong> &lt;code>0.9&lt;/code> (即 90%)。&lt;/li>
&lt;li>&lt;strong>值越高 (例如 &lt;code>0.95&lt;/code>):&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> vLLM 有更多的显存用于 KV Cache，可以支持更长的上下文、更大的批处理大小（batch size），从而提高吞吐量。&lt;/li>
&lt;li>&lt;strong>风险:&lt;/strong> 如果设置得太高，可能会没有足够的备用显存留给 CUDA 内核、驱动或其他系统进程，容易导致 &lt;strong>OOM (Out of Memory)&lt;/strong> 错误。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;strong>值越低 (例如 &lt;code>0.8&lt;/code>):&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> 更安全，不易 OOM，为系统和其他应用保留了更多显存。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> KV Cache 的可用空间变小，可能导致 vLLM 无法处理高并发或长序列请求，性能下降。当 KV Cache 不足时，vLLM 会触发 &lt;strong>抢占 (Preemption)&lt;/strong>，将一些正在运行的序列换出，等待有足够空间后再换入，这会严重影响延迟。vLLM 的警告日志 &lt;code>&amp;quot;there is not enough KV cache space. This can affect the end-to-end performance.&amp;quot;&lt;/code> 就是在提醒你这一点。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>建议:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>从默认值 &lt;code>0.9&lt;/code> 开始。&lt;/li>
&lt;li>如果遇到 OOM，适当调低此值。&lt;/li>
&lt;li>如果遇到大量抢占警告，且确认没有其他进程占用大量显存，可以适当调高此值。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="2-maxnumseqs">2. &lt;code>max_num_seqs&lt;/code>&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 限制 vLLM 调度器在 &lt;strong>一个迭代（或一个批处理）中&lt;/strong> 可以处理的最大序列（请求）数量。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理:&lt;/strong>
vLLM 的调度器会在每个处理周期，从等待队列中选择一批请求来共同执行。这个参数直接限制了这个&amp;quot;批&amp;quot;的大小。它与 &lt;code>max_num_batched_tokens&lt;/code>（限制一个批次中所有序列的总 token 数）共同决定了批处理的规模。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与影响:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> 正整数，例如 &lt;code>16&lt;/code>, &lt;code>64&lt;/code>, &lt;code>256&lt;/code>。&lt;/li>
&lt;li>&lt;strong>值越高:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> 允许更高的并发度，可能提高 GPU 的利用率和整体吞吐量。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> 需要更多的中间内存（例如，存储 &lt;code>logits&lt;/code> 和采样状态），并可能增加单个批处理的延迟。如果设置得过高，即使 KV Cache 还有空间，也可能因为其他临时内存不足而 OOM。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;strong>值越低:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> 对内存更友好，单个批次延迟可能更低。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> 限制了并发能力，可能导致 GPU 利用率不足，吞吐量下降。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>建议:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>这个值需要根据你的 GPU 显存大小、模型大小和预期的并发负载来调整。&lt;/li>
&lt;li>对于高并发场景，可以尝试逐步增加此值，并监控 GPU 利用率和内存使用情况。&lt;/li>
&lt;li>对于交互式、低延迟要求的场景，可以适当调低此值。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="3-maxmodellen">3. &lt;code>max_model_len&lt;/code>&lt;/h3>
&lt;p>&lt;strong>一句话解释：&lt;/strong> 设定模型能够处理的 &lt;strong>最大上下文长度&lt;/strong>（包括 prompt 和生成的 token）。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>底层原理:&lt;/strong>
这个参数直接决定了 vLLM 需要为 KV Cache 预留多大的逻辑空间。例如，如果 &lt;code>max_model_len&lt;/code> = &lt;code>4096&lt;/code>，vLLM 就必须确保其内存管理机制能够支持每个序列最多存储 &lt;code>4096&lt;/code> 个 token 的 KV 对。
这会影响 vLLM 启动时的内存规划，比如 Position Embedding 的大小。&lt;/p>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>取值范围与影响:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>范围:&lt;/strong> 正整数，不能超过模型原始训练时的最大长度。&lt;/li>
&lt;li>&lt;strong>值越高:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> 可以处理更长的文档、更复杂的上下文。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> &lt;strong>显著增加&lt;/strong> 内存消耗。每个 token 都需要存储 KV Cache，长度翻倍，内存占用也大致翻倍。即使当前请求很短，vLLM 也需要为潜在的长请求做好准备，这会占用更多的 KV Cache 块。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>&lt;strong>值越低:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> &lt;strong>显著节省&lt;/strong> 显存。如果你知道你的应用场景永远不会超过 1024 个 token，那么将此值设为 1024 会比默认的 4096 或 8192 释放出大量的 KV Cache 空间，从而支持更高的并发。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> 任何超过此长度的请求都会被拒绝或截断。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>建议:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>按需设置！&lt;/strong> 这是优化 vLLM 内存使用的最有效参数之一。根据你的实际应用场景，将此值设置为一个合理的、略带余量的最大值。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;h3 id="4-tensorparallelsize---pipelineparallelsize-">4. &lt;code>tensor_parallel_size&lt;/code> (张量并行) &amp;amp; &lt;code>pipeline_parallel_size&lt;/code> (流水线并行)&lt;/h3>
&lt;p>这两个参数用于在多个 GPU 或多个节点上部署超大模型。&lt;/p>
&lt;ul>
&lt;li>
&lt;p>&lt;strong>&lt;code>tensor_parallel_size&lt;/code>:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>作用:&lt;/strong> 将模型的 &lt;strong>每一层&lt;/strong>（比如一个大的权重矩阵）都切分成 &lt;code>N&lt;/code> 份（&lt;code>N&lt;/code> = &lt;code>tensor_parallel_size&lt;/code>），分别放到 &lt;code>N&lt;/code> 个 GPU 上。在计算时，每个 GPU 只处理它自己那一部分的数据，然后通过高速互联（如 NVLink）交换必要的结果（All-Reduce 操作），最后合并得到完整输出。&lt;/li>
&lt;li>&lt;strong>场景:&lt;/strong> 当单个模型的体积超过单张 GPU 的显存时使用。例如，一个 70B 的模型无法放入一张 40GB 的 A100，但可以设置 &lt;code>tensor_parallel_size=2&lt;/code> 部署在两张 A100 上。&lt;/li>
&lt;li>&lt;strong>影响:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> 实现了模型并行，解决了单卡存不下的问题。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> 引入了大量的跨 GPU 通信开销，可能会影响延迟。需要 GPU 之间有高速互联。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>&lt;code>pipeline_parallel_size&lt;/code>:&lt;/strong>&lt;/p>
&lt;ul>
&lt;li>&lt;strong>作用:&lt;/strong> 将模型的 &lt;strong>不同层&lt;/strong> 分配到不同的 GPU 或节点上。例如，将 1-10 层放在 GPU 1，11-20 层放在 GPU 2，以此类推。数据像流水线一样流过这些 GPU。&lt;/li>
&lt;li>&lt;strong>场景:&lt;/strong> 当模型非常非常大，需要跨多个节点（机器）部署时。&lt;/li>
&lt;li>&lt;strong>影响:&lt;/strong>
&lt;ul>
&lt;li>&lt;strong>优点:&lt;/strong> 可以将模型扩展到任意数量的 GPU/节点。&lt;/li>
&lt;li>&lt;strong>缺点:&lt;/strong> 会产生&amp;quot;流水线气泡&amp;rdquo;（pipeline bubble）的额外开销，即在流水线的开始和结束阶段，部分 GPU 会处于空闲等待状态，降低了利用率。&lt;/li>
&lt;/ul>
&lt;/li>
&lt;/ul>
&lt;/li>
&lt;li>
&lt;p>&lt;strong>组合使用:&lt;/strong>
vLLM 支持同时使用这两种并行策略，以在大型集群上高效部署巨型模型。&lt;/p>
&lt;/li>
&lt;/ul>
&lt;hr>
&lt;h3 id="heading1">总结与最佳实践&lt;/h3>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th align="left">场景&lt;/th>
&lt;th align="left">&lt;code>temperature&lt;/code>&lt;/th>
&lt;th align="left">&lt;code>top_p&lt;/code>&lt;/th>
&lt;th align="left">&lt;code>repetition_penalty&lt;/code>&lt;/th>
&lt;th align="left">&lt;code>gpu_memory_utilization&lt;/code>&lt;/th>
&lt;th align="left">&lt;code>max_num_seqs&lt;/code>&lt;/th>
&lt;th align="left">&lt;code>max_model_len&lt;/code>&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td align="left">&lt;strong>代码生成/事实问答&lt;/strong>&lt;/td>
&lt;td align="left">&lt;code>0.0&lt;/code> - &lt;code>0.2&lt;/code>&lt;/td>
&lt;td align="left">(不建议修改)&lt;/td>
&lt;td align="left">&lt;code>1.0&lt;/code>&lt;/td>
&lt;td align="left">&lt;code>0.9&lt;/code> (默认)&lt;/td>
&lt;td align="left">根据并发调整&lt;/td>
&lt;td align="left">按需设置&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td align="left">&lt;strong>文章摘要/翻译&lt;/strong>&lt;/td>
&lt;td align="left">&lt;code>0.2&lt;/code> - &lt;code>0.5&lt;/code>&lt;/td>
&lt;td align="left">(不建议修改)&lt;/td>
&lt;td align="left">&lt;code>1.1&lt;/code>&lt;/td>
&lt;td align="left">&lt;code>0.9&lt;/code>&lt;/td>
&lt;td align="left">根据并发调整&lt;/td>
&lt;td align="left">设为文档最大可能长度&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td align="left">&lt;strong>通用聊天/文案写作&lt;/strong>&lt;/td>
&lt;td align="left">&lt;code>0.7&lt;/code> (默认)&lt;/td>
&lt;td align="left">&lt;code>0.9&lt;/code> (推荐)&lt;/td>
&lt;td align="left">&lt;code>1.1&lt;/code> - &lt;code>1.2&lt;/code>&lt;/td>
&lt;td align="left">&lt;code>0.9&lt;/code>&lt;/td>
&lt;td align="left">根据并发调整&lt;/td>
&lt;td align="left">按需设置，例如&lt;code>4096&lt;/code>|&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td align="left">&lt;strong>创意写作/头脑风暴&lt;/strong>&lt;/td>
&lt;td align="left">&lt;code>0.8&lt;/code> - &lt;code>1.2&lt;/code>&lt;/td>
&lt;td align="left">&lt;code>0.95&lt;/code>&lt;/td>
&lt;td align="left">&lt;code>1.0&lt;/code>&lt;/td>
&lt;td align="left">&lt;code>0.9&lt;/code>&lt;/td>
&lt;td align="left">根据并发调整&lt;/td>
&lt;td align="left">按需设置&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td align="left">&lt;strong>高并发吞吐量优化&lt;/strong>&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">尝试 &lt;code>0.9&lt;/code> - &lt;code>0.95&lt;/code>&lt;/td>
&lt;td align="left">逐步调高&lt;/td>
&lt;td align="left">设为满足业务的&lt;strong>最小值&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td align="left">&lt;strong>低延迟交互优化&lt;/strong>&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">&lt;code>0.9&lt;/code> (默认)&lt;/td>
&lt;td align="left">设为较低值 (如&lt;code>16-64&lt;/code>)&lt;/td>
&lt;td align="left">按需设置&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td align="left">&lt;strong>内存极度受限&lt;/strong>&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">(根据任务)&lt;/td>
&lt;td align="left">调低至 &lt;code>0.8&lt;/code>&lt;/td>
&lt;td align="left">设为较低值&lt;/td>
&lt;td align="left">设为满足业务的&lt;strong>最小值&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>&lt;strong>最终建议：&lt;/strong>&lt;/p>
&lt;ol>
&lt;li>&lt;strong>从生成参数开始调优：&lt;/strong> 首先通过调整 &lt;code>temperature&lt;/code> 或 &lt;code>top_p&lt;/code> 获得满意的输出质量。&lt;/li>
&lt;li>&lt;strong>按需设置部署参数：&lt;/strong> 在部署时，首先根据你的应用场景，将 &lt;code>max_model_len&lt;/code> 设置为一个合理的最小值。&lt;/li>
&lt;li>&lt;strong>监控并迭代：&lt;/strong> 使用默认的 &lt;code>gpu_memory_utilization=0.9&lt;/code> 和一个适中的 &lt;code>max_num_seqs&lt;/code> 开始。通过监控工具（如 &lt;code>nvidia-smi&lt;/code> 和 vLLM 的日志）观察显存使用率和抢占情况，然后逐步迭代调整这些值，以在你的特定硬件和负载下找到最佳的平衡点。&lt;/li>
&lt;/ol></description></item></channel></rss>