大型语言模型 | 林子杨的个人网站

LLM Agent多轮对话技术解析：架构设计与实现策略

本文深入剖析了LLM Agent在多轮对话中面临的核心挑战，详细讲解了从ReAct架构到有限状态机的技术演进，以及各类记忆系统的实现方案，为构建高效、可靠的智能对话系统提供全面指南。

本文深入剖析了检索增强生成(RAG)技术的核心架构、工作原理和前沿应用，从索引构建到检索策略，再到评估体系，全面解读这一连接大语言模型与外部知识的关键桥梁。

本文深入解析模型上下文协议(MCP)的核心架构、通信机制和实现方法，详细阐述了这一标准化协议如何实现LLM与外部工具的无缝对接，为构建可扩展、可互操作的AI生态系统奠定基础。

本文深入解析LLM工具调用的核心原理、技术实现、代码示例及最佳实践，详细阐述如何通过工具调用机制让大语言模型突破知识边界，实现与外部世界的交互。

本文深入解析了混合专家模型(MoE)的核心原理、组件构成、训练方法以及优势挑战，详细阐述了这一通过稀疏激活实现模型大规模扩展的革命性架构，帮助读者全面理解这一构建超大规模语言模型的关键技术。

本文深入解析了大型语言模型(LLM)的两大类关键超参数：生成超参数和部署超参数，详细阐述了它们的作用、取值范围、影响以及在不同场景下的最佳实践，帮助开发者精确调整模型以获得理想的性能、成本和输出质量。

本文详细介绍了Ollama这一强大的开源工具，包括其核心概念、快速入门、API参考、命令行工具以及高级功能，帮助用户轻松在本地环境下载、运行和管理大型语言模型。

本文深入剖析了深度学习模型量化的核心概念、主流方案以及在llama.cpp和vLLM两大推理框架中的具体实现，帮助读者全面理解如何通过量化技术实现模型的高效部署。

本文详细介绍了SGLang这一为大型语言模型和视觉语言模型设计的高性能服务框架，包括其核心特性RadixAttention、前端DSL语言、结构化输出约束以及实际应用案例，帮助读者全面了解这一强大的LLM编程和执行框架。

本文详细介绍了Llama.cpp这一高性能、轻量级的大型语言模型推理框架，包括其核心概念、使用方法、高级功能以及生态系统，帮助读者全面了解如何在消费级硬件上高效运行LLM。

本文详细介绍了vLLM的核心技术PagedAttention、架构设计以及实践指南，帮助读者全面理解这一高性能大语言模型推理和服务引擎。

本文深入浅出地介绍了LoRA（Low-Rank Adaptation）技术的核心原理、优势、实战指南以及部署策略，帮助读者全面理解这一革命性的参数高效微调方法。