Llama.cpp 技术详解：轻量级大模型推理引擎

林子杨

最近更新于 Jun 27, 2025 4 分钟阅读时长技术文档, 机器学习

1. 引言

Llama.cpp 是一个用 C/C++ 编写的高性能、轻量级的大型语言模型 (LLM) 推理框架。它专注于在消费级硬件上高效运行 LLM，实现了在普通笔记本电脑甚至手机上进行本地推理的可能。

核心优势:

高性能: 通过优化的 C/C++ 代码、量化技术和硬件加速支持（如 Apple Metal, CUDA, OpenCL, SYCL），实现了极快的推理速度。
轻量级: 极低的内存和计算资源消耗，无需昂贵的 GPU 即可运行。
跨平台: 支持 macOS, Linux, Windows, Docker, Android, 和 iOS 等多种平台。
开放生态: 拥有活跃的社区和丰富的生态系统，包括 Python 绑定、UI 工具和与 OpenAI 兼容的服务器。
持续创新: 快速跟进并实现最新的模型架构和推理优化技术。

2. 核心概念

2.1. GGUF 模型格式

GGUF (Georgi Gerganov Universal Format) 是 llama.cpp 使用的核心模型文件格式，是其前身 GGML 的演进版本。GGUF 是一个专为快速加载和内存映射设计的二进制格式。

主要特点:

统一文件: 将模型元数据、词汇表和所有张量（权重）打包在单个文件中。
可扩展性: 允许在不破坏兼容性的情况下添加新的元数据。
向后兼容: 保证了对旧版本 GGUF 模型的兼容。
内存效率: 支持内存映射（mmap），允许多个进程共享同一模型权重，从而节省内存。

2.2. 量化 (Quantization)

量化是 llama.cpp 的核心优势之一。它是一种将模型权重从高精度浮点数（如 32 位或 16 位）转换为低精度整数（如 4 位、5 位或 8 位）的技术。

主要优势:

减小模型体积: 显著降低模型文件的大小，使其更易于分发和存储。
降低内存占用: 减少了模型加载到内存中所需的 RAM。
加速推理: 低精度计算通常比高精度计算更快，尤其是在 CPU 上。

llama.cpp 支持多种量化方法，特别是 k-quants，这是一种先进的量化技术，能够在保持较高模型性能的同时实现极高的压缩率。

2.3. 多模态支持

llama.cpp 不仅仅局限于文本模型，它已经发展成为一个强大的多模态推理引擎，支持同时处理文本、图像甚至音频。

支持的模型: 支持如 LLaVA, MobileVLM, Granite, Qwen2.5 Omni, InternVL, SmolVLM 等多种主流多模态模型。
工作原理: 通常通过一个视觉编码器（如 CLIP）将图像转换为嵌入向量，然后将这些向量与文本嵌入向量一起输入到 LLM 中。
使用工具: llama-mtmd-cli 和 llama-server 提供了对多模态模型的原生支持。

3. 使用方法

3.1. 编译

从源码编译 llama.cpp 非常简单。

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
make

对于特定硬件加速（如 CUDA 或 Metal），需要使用相应的编译选项：

# For CUDA
make LLAMA_CUDA=1

# For Metal (on macOS)
make LLAMA_METAL=1

3.2. 基本推理

编译后，可以使用 llama-cli 工具进行推理。

./llama-cli -m ./models/7B/ggml-model-q4_0.gguf -p "Building a website can be done in 10 simple steps:" -n 400

-m: 指定 GGUF 模型文件的路径。
-p: 指定提示（prompt）。
-n: 指定要生成的最大 token 数量。

3.3. OpenAI 兼容服务器

llama.cpp 提供了一个内置的 HTTP 服务器，其 API 与 OpenAI 的 API 兼容。这使得它可以轻松地与 LangChain, LlamaIndex 等现有工具集成。

启动服务器：

./llama-server -m models/7B/ggml-model-q4_0.gguf -c 4096

然后，你可以像调用 OpenAI API 一样向 http://localhost:8080/v1/chat/completions 发送请求。

4. 高级功能

4.1. 投机性解码 (Speculative Decoding)

这是一种先进的推理优化技术，通过使用一个小的"草稿"模型来预测主模型的输出，从而显著加速生成速度。

工作原理: 草稿模型快速生成一个 token 序列草稿，然后由主模型一次性验证整个序列。如果验证通过，就可以节省逐个生成 token 的时间。
使用方法: 在 llama-cli 或 llama-server 中使用 --draft-model 参数指定一个小的、快速的草稿模型。

4.2. LoRA 支持

LoRA (Low-Rank Adaptation) 允许在不修改原始模型权重的情况下，通过训练一个小的适配器来微调模型的行为。llama.cpp 支持在推理时加载一个或多个 LoRA 适配器。

./llama-cli -m base-model.gguf --lora lora-adapter.gguf

甚至可以为不同的 LoRA 适配器设置不同的权重：

./llama-cli -m base.gguf --lora-scaled lora_A.gguf 0.5 --lora-scaled lora_B.gguf 0.5

4.3. 文法约束 (Grammars)

文法约束是一个非常强大的功能，它允许你强制模型的输出遵循特定的格式，例如严格的 JSON 模式。

格式: 使用一种名为 GBNF (GGML BNF) 的格式来定义语法规则。
应用: 在 API 请求中通过 grammar 参数提供 GBNF 规则，可以确保模型返回格式正确、可直接解析的 JSON 数据，避免了输出格式错误和繁琐的后处理。

示例： 使用 Pydantic 模型生成 JSON Schema，然后转换为 GBNF，以确保模型输出符合预期的 Python 对象结构。

import json
from typing import List
from pydantic import BaseModel

class QAPair(BaseModel):
    question: str
    answer: str

class Summary(BaseModel):
    key_facts: List[str]
    qa_pairs: List[QAPair]

# 生成 JSON Schema 并打印
schema = Summary.model_json_schema()
print(json.dumps(schema, indent=2))

5. 生态系统

llama.cpp 的成功催生了一个充满活力的生态系统：

llama-cpp-python: 最流行的 Python 绑定，提供了与 llama.cpp 几乎所有功能的接口，并与 LangChain、LlamaIndex 等框架深度集成。
Ollama: 一个将模型打包、分发和运行的工具，底层使用了 llama.cpp，极大地简化了在本地运行 LLM 的流程。
众多 UI 工具: 社区开发了大量的图形界面工具，让非技术用户也能轻松地与本地模型进行交互。

6. 总结

llama.cpp 不仅仅是一个推理引擎，它已经成为推动 LLM 本地化和大众化的关键力量。通过其卓越的性能、对资源的高度优化以及不断扩展的功能集（如多模态、文法约束），llama.cpp 为开发者和研究人员提供了一个强大而灵活的平台，让他们能够在各种设备上探索和部署 AI 应用，开启了低成本、保护隐私的本地 AI 新时代。

大型语言模型模型推理 Llama.cpp 量化本地部署