模型推理

TensorRT深度解析：高性能深度学习推理引擎

本文深入介绍了NVIDIA TensorRT的核心概念、关键特性、工作流程以及TensorRT-LLM，帮助开发者充分利用GPU加速深度学习推理，实现低延迟高吞吐量的模型部署。

本文详细介绍了SGLang这一为大型语言模型和视觉语言模型设计的高性能服务框架，包括其核心特性RadixAttention、前端DSL语言、结构化输出约束以及实际应用案例，帮助读者全面了解这一强大的LLM编程和执行框架。

本文详细介绍了Llama.cpp这一高性能、轻量级的大型语言模型推理框架，包括其核心概念、使用方法、高级功能以及生态系统，帮助读者全面了解如何在消费级硬件上高效运行LLM。

本文详细介绍了vLLM的核心技术PagedAttention、架构设计以及实践指南，帮助读者全面理解这一高性能大语言模型推理和服务引擎。