vLLM

大型语言模型超参数调优指南:从生成到部署的全面解析

本文深入解析了大型语言模型(LLM)的两大类关键超参数:生成超参数和部署超参数,详细阐述了它们的作用、取值范围、影响以及在不同场景下的最佳实践,帮助开发者精确调整模型以获得理想的性能、成本和输出质量。

模型量化技术指南:从理论到实践的全面解析

本文深入剖析了深度学习模型量化的核心概念、主流方案以及在llama.cpp和vLLM两大推理框架中的具体实现,帮助读者全面理解如何通过量化技术实现模型的高效部署。

vLLM技术详解:高性能LLM推理引擎

本文详细介绍了vLLM的核心技术PagedAttention、架构设计以及实践指南,帮助读者全面理解这一高性能大语言模型推理和服务引擎。