hub / github.com/InternLM/lmdeploy

github.com/InternLM/lmdeploy @0.14.0a2 sqlite

repository ↗ · DeepWiki ↗ · release 0.14.0a2 ↗

8,978 symbols 31,570 edges 734 files 4,479 documented · 50%

README

PyPI - Downloads

📘Documentation | 🛠️Quick Start | 🤔Reporting Issues

English | 简体中文 | 日本語

👋 join us on

简介

LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发，是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。这个强大的工具箱提供以下核心功能：

高效的推理：LMDeploy 开发了 Persistent Batch(即 Continuous Batch)，Blocked K/V Cache，动态拆分和融合，张量并行，高效的计算 kernel等重要特性。推理性能是 vLLM 的 1.8 倍
可靠的量化：LMDeploy 支持权重量化和 k/v 量化。4bit 模型推理效率是 FP16 下的 2.4 倍。量化模型的可靠性已通过 OpenCompass 评测得到充分验证。
便捷的服务：通过请求分发服务，LMDeploy 支持多模型在多机、多卡上的推理服务。
卓越的兼容性: LMDeploy 支持 KV Cache 量化, AWQ 和 Automatic Prefix Caching 同时使用。

性能

LMDeploy TurboMind 引擎拥有卓越的推理能力，在各种规模的模型上，每秒处理的请求数是 vLLM 的 1.36 ~ 1.85 倍。在静态推理能力方面，TurboMind 4bit 模型推理速度（out token/s）远高于 FP16/BF16 推理。在小 batch 时，提高到 2.4 倍。

v0 1 0-benchmark

支持的模型

LLMs

VLMs

Llama (7B - 65B)
Llama2 (7B - 70B)
Llama3 (8B, 70B)
Llama3.1 (8B, 70B)
Llama3.2 (1B, 3B)
InternLM (7B - 20B)
InternLM2 (7B - 20B)
InternLM3 (8B)
InternLM2.5 (7B)
Qwen (1.8B - 72B)
Qwen1.5 (0.5B - 110B)
Qwen1.5 - MoE (0.5B - 72B)
Qwen2 (0.5B - 72B)
Qwen2-MoE (57BA14B)
Qwen2.5 (0.5B - 32B)
Qwen3, Qwen3-MoE
Qwen3-Next(80B)
Baichuan (7B)
Baichuan2 (7B-13B)
Code Llama (7B - 34B)
ChatGLM2 (6B)
GLM-4 (9B)
GLM-4-0414 (9B, 32B)
CodeGeeX4 (9B)
YI (6B-34B)
Mistral (7B)
DeepSeek-MoE (16B)
DeepSeek-V2 (16B, 236B)
DeepSeek-V2.5 (236B)
DeepSeek-V3 (685B)
DeepSeek-V3.2 (685B)
Mixtral (8x7B, 8x22B)
Gemma (2B - 7B)
StarCoder2 (3B - 15B)
Phi-3-mini (3.8B)
Phi-3.5-mini (3.8B)
Phi-3.5-MoE (16x3.8B)
Phi-4-mini (3.8B)
MiniCPM3 (4B)
SDAR (1.7B-30B)
gpt-oss (20B, 120B)
GLM-4.7-Flash (30B)
GLM-5 (754B)

LLaVA(1.5,1.6) (7B-34B)
InternLM-XComposer2 (7B, 4khd-7B)
InternLM-XComposer2.5 (7B)
Qwen-VL (7B)
Qwen2-VL (2B, 7B, 72B)
Qwen2.5-VL (3B, 7B, 72B)
Qwen3-VL (2B - 235B)
Qwen3.5 (0.8B - 397B)
Qwen3-Omni (30B-A3B)
DeepSeek-VL (7B)
DeepSeek-VL2 (3B, 16B, 27B)
InternVL-Chat (v1.1-v1.5)
InternVL2 (1B-76B)
InternVL2.5(MPO) (1B-78B)
InternVL3 (1B-78B)
InternVL3.5 (1B-241BA28B)
Intern-S1 (241B)
Intern-S1-mini (8.3B)
Intern-S1-Pro (1TB)
Intern-S2-Preview (35B-A3B)
Mono-InternVL (2B)
ChemVLM (8B-26B)
CogVLM-Chat (17B)
CogVLM2-Chat (19B)
MiniCPM-Llama3-V-2_5
MiniCPM-V-2_6
Phi-3-vision (4.2B)
Phi-3.5-vision (4.2B)
GLM-4V (9B)
GLM-4.1V-Thinking (9B)
Llama3.2-vision (11B, 90B)
Molmo (7B-D,72B)
Gemma3 (1B - 27B)
Llama4 (Scout, Maverick)

LMDeploy 支持 2 种推理引擎： TurboMind 和 PyTorch，它们侧重不同。前者追求推理性能的极致优化，后者纯用python开发，着重降低开发者的门槛。

它们在支持的模型类别、计算精度方面有所差别。用户可参考这里, 查阅每个推理引擎的能力，并根据实际需求选择合适的。

快速开始

安装

我们推荐在一个干净的conda环境下（python3.10 - 3.13），安装 lmdeploy：

conda create -n lmdeploy python=3.12 -y
conda activate lmdeploy
pip install lmdeploy

自 v0.13.0 起，PyPI 上默认预编译 wheel 基于 CUDA 12.8 构建，一般用户（含 GeForce RTX 50 系列）使用上方的 pip install lmdeploy 即可。

离线批处理

import lmdeploy
with lmdeploy.pipeline("internlm/internlm3-8b-instruct") as pipe:
    response = pipe(["Hi, pls intro yourself", "Shanghai is"])
    print(response)

[!NOTE] LMDeploy 默认从 HuggingFace 上面下载模型，如果要从 ModelScope 上面下载模型，请通过命令 pip install modelscope 安装ModelScope，并设置环境变量：

export LMDEPLOY_USE_MODELSCOPE=True

如果要从 openMind Hub 上面下载模型，请通过命令 pip install openmind_hub 安装openMind Hub，并设置环境变量：

export LMDEPLOY_USE_OPENMIND_HUB=True

关于 pipeline 的更多推理参数说明，请参考这里

用户教程

请阅读快速上手章节，了解 LMDeploy 的基本用法。

为了帮助用户更进一步了解 LMDeploy，我们准备了用户指南和进阶指南，请阅读我们的文档：

社区项目

使用LMDeploy在英伟达Jetson系列板卡部署大模型：LMDeploy-Jetson
使用 LMDeploy 和 BentoML 部署大模型的示例项目：BentoLMDeploy

贡献指南

我们感谢所有的贡献者为改进和提升 LMDeploy 所作出的努力。请参考贡献指南来了解参与项目贡献的相关指引。

致谢

引用

@misc{2023lmdeploy,
    title={LMDeploy: A Toolkit for Compressing, Deploying, and Serving LLM},
    author={LMDeploy Contributors},
    howpublished = {\url{https://github.com/InternLM/lmdeploy}},
    year={2023}
}

@article{zhang2025efficient,
  title={Efficient Mixed-Precision Large Language Model Inference with TurboMind},
  author={Zhang, Li and Jiang, Youhe and He, Guoliang and Chen, Xin and Lv, Han and Yao, Qian and Fu, Fangcheng and Chen, Kai},
  journal={arXiv preprint arXiv:2508.15601},
  year={2025}
}

开源许可证

该项目采用 Apache 2.0 开源许可证。

Core symbols most depended-on inside this repo

get

called by 796

lmdeploy/turbomind/checkpoint.py

append

called by 634

lmdeploy/turbomind/checkpoint.py

load

called by 323

lmdeploy/pytorch/disagg/backend/dlslime.py

join

called by 320

lmdeploy/pytorch/engine/executor/mp_executor.py

load_weight

called by 243

lmdeploy/pytorch/weight_loader/model_weight_loader.py

items

called by 177

lmdeploy/turbomind/loader.py

append

called by 156

lmdeploy/pytorch/block.py

get

called by 131

lmdeploy/pytorch/engine/engine_instance.py

Shape

Method 5,356

Function 2,025

Class 1,356

Route 241

Languages

Python100%

Modules by API surface

tests/pytorch/kernel/test_paged_attention.py115 symbols

lmdeploy/pytorch/messages.py104 symbols

lmdeploy/cli/utils.py86 symbols

tests/pytorch/kernel/test_fill_kv_cache.py77 symbols

lmdeploy/serve/openai/api_server.py77 symbols

autotest/evaluate/test_api_evaluate.py76 symbols

tests/pytorch/kernel/test_flatten_kv_cache.py74 symbols

lmdeploy/pytorch/models/llama4.py71 symbols

lmdeploy/model.py71 symbols

tests/test_lmdeploy/serve/anthropic/test_endpoints.py67 symbols

autotest/utils/config_utils.py67 symbols

tests/pytorch/kernel/test_fuse_moe_blocked_fp8.py62 symbols

For agents

$ claude mcp add lmdeploy \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact