模型推理

TensorRT深度解析:高性能深度学习推理引擎

本文深入介绍了NVIDIA TensorRT的核心概念、关键特性、工作流程以及TensorRT-LLM,帮助开发者充分利用GPU加速深度学习推理,实现低延迟高吞吐量的模型部署。

SGLang 技术指南:高性能结构化生成语言框架

本文详细介绍了SGLang这一为大型语言模型和视觉语言模型设计的高性能服务框架,包括其核心特性RadixAttention、前端DSL语言、结构化输出约束以及实际应用案例,帮助读者全面了解这一强大的LLM编程和执行框架。

Llama.cpp 技术详解:轻量级大模型推理引擎

本文详细介绍了Llama.cpp这一高性能、轻量级的大型语言模型推理框架,包括其核心概念、使用方法、高级功能以及生态系统,帮助读者全面了解如何在消费级硬件上高效运行LLM。

vLLM技术详解:高性能LLM推理引擎

本文详细介绍了vLLM的核心技术PagedAttention、架构设计以及实践指南,帮助读者全面理解这一高性能大语言模型推理和服务引擎。