hub / github.com/OpenBMB/VoxCPM

github.com/OpenBMB/VoxCPM @2.0.3 sqlite

repository ↗ · DeepWiki ↗ · release 2.0.3 ↗

475 symbols 1,400 edges 45 files 116 documented · 24%

README

VoxCPM2：基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆

English | 中文

VoxCPM Logo

👋 欢迎加入社区，参与讨论与交流！

飞书群 | Discord

VoxCPM 是一个无离散音频分词器（Tokenizer-Free）的语音合成系统，通过端到端的扩散自回归架构直接生成连续语音表征，绕过对音频的离散编码步骤，实现高度自然且富有表现力的语音合成。

VoxCPM2 是最新的版本 — 基于 MiniCPM-4 基座构建，总计 20亿 参数，在超过 200万小时 的多语种音频数据上训练，支持 30种全球语言+9种中文方言、音色设计、可控声音克隆，原生输出 48kHz 高质量音频。

✨ 核心特性

🌍 30种语言语音合成 — 直接输入原始文本即可合成（支持语言详见下文），无需额外语言标签
🎨 音色设计 — 用自然语言描述（性别、年龄、音色、情绪、语速……）凭空创建全新音色，无需参考音频
🎛️ 可控声音克隆 — 从参考音频片段克隆任意声音，可叠加风格指令控制情绪、语速和表现力，同时保持原始音色
🎙️ 极致克隆 — 提供参考音频及其文本内容，模型接着参考音频进行无缝续写，从而精准还原声音细节特征（与 VoxCPM1.5 一致）
🔊 48kHz 高质量音频 — 输入 16kHz 参考音频，通过 AudioVAE V2 的非对称编解码设计直接输出 48kHz 高质量音频，内置超分能力
🧠 语境感知合成 — 根据文本内容自动推断合适的韵律和表现力
⚡ 实时流式合成 — 在 NVIDIA RTX 4090 上 RTF 低至 ~0.3，通过 Nano-vLLM 或 vLLM-Omni（官方 vLLM 全模态服务，原生支持 VoxCPM2，提供 PagedAttention 与 OpenAI 兼容 API）加速后可达 ~0.13
📜 完全开源，商用就绪 — 权重和代码基于 Apache-2.0 协议发布，免费商用

🌍 支持的语言（30种）

阿拉伯语、缅甸语、中文、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、高棉语、韩语、老挝语、马来语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、斯瓦希里语、瑞典语、菲律宾语、泰语、土耳其语、越南语

中国方言：四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话

🚀 快速开始

安装

pip install voxcpm

环境要求： Python ≥ 3.10 (<3.13)，PyTorch ≥ 2.5.0，CUDA ≥ 12.0。详见快速开始文档。

Python API

🗣️ 文本转语音

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained(
  "openbmb/VoxCPM2",
  load_denoiser=False,
)

wav = model.generate(
    text="VoxCPM2 是目前推荐使用的多语言语音合成版本。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
print("已保存: demo.wav")

如果你希望先从 ModelScope 下载模型到本地（适用于国内网络访问），可以使用：

pip install modelscope

from modelscope import snapshot_download
snapshot_download("OpenBMB/VoxCPM2", local_dir='./pretrained_models/VoxCPM2') # 指定模型保存的本地路径

from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained('./pretrained_models/VoxCPM2', load_denoiser=False)

wav = model.generate(
    text="VoxCPM2 是目前推荐使用的多语言语音合成版本。",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

🎨 音色设计

用自然语言描述创建全新音色，无需参考音频。格式： 在 text 开头用括号写入音色描述（如 "(音色描述)要合成的文本。"）：

wav = model.generate(
    text="(年轻女性，声音温柔甜美)你好，欢迎使用VoxCPM2！",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("voice_design.wav", wav, model.tts_model.sample_rate)

🎛️ 可控声音克隆

上传一段参考音频，模型克隆其音色，同时可以使用控制指令调节语速、情绪或风格。

wav = model.generate(
    text="这是VoxCPM2生成的克隆语音。",
    reference_wav_path="path/to/voice.wav",
)
sf.write("clone.wav", wav, model.tts_model.sample_rate)

wav = model.generate(
    text="(稍快一点，欢快的语气)这是带风格控制的克隆语音。",
    reference_wav_path="path/to/voice.wav",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("controllable_clone.wav", wav, model.tts_model.sample_rate)

🎙️ 极致克隆

提供参考音频及其精确文本转录，实现基于音频续写的高保真克隆。为获得最高克隆相似度，可将同一音频同时传给 reference_wav_path 和 prompt_wav_path：

wav = model.generate(
    text="这是使用VoxCPM2的极致克隆演示。",
    prompt_wav_path="path/to/voice.wav",
    prompt_text="参考音频的文本转录。",
    reference_wav_path="path/to/voice.wav",  # 可选，提升相似度
)
sf.write("hifi_clone.wav", wav, model.tts_model.sample_rate)

🔄 流式 API

import numpy as np

chunks = []
for chunk in model.generate_streaming(
    text="使用VoxCPM进行流式语音合成非常简单！",
):
    chunks.append(chunk)
wav = np.concatenate(chunks)
sf.write("streaming.wav", wav, model.tts_model.sample_rate)

命令行使用

# 音色设计（无需参考音频）
voxcpm design \
  --text "VoxCPM2带来全新语音合成体验。" \
  --output out.wav

# 可控声音克隆（带风格控制）
voxcpm design \
  --text "VoxCPM2带来全新语音合成体验。" \
  --control "年轻女声，温暖温柔，略带微笑" \
  --output out.wav

# 声音克隆（参考音频）
voxcpm clone \
  --text "这是一个声音克隆的演示。" \
  --reference-audio path/to/voice.wav \
  --output out.wav

# 极致克隆（提示音频 + 转录文本）
voxcpm clone \
  --text "这是一个声音克隆的演示。" \
  --prompt-audio path/to/voice.wav \
  --prompt-text "参考音频转录文本" \
  --reference-audio path/to/voice.wav \
  --output out.wav

# 批量处理
voxcpm batch --input examples/input.txt --output-dir outs

# 帮助
voxcpm --help

Web Demo

python app.py --port 8808  # 然后在浏览器打开 http://localhost:8808

🚢 生产部署（Nano-vLLM）

如需高吞吐量部署，使用 Nano-vLLM-VoxCPM — 基于 Nano-vLLM 构建的专用推理引擎，支持并发请求和异步 API。

pip install nano-vllm-voxcpm

from nanovllm_voxcpm import VoxCPM
import numpy as np, soundfile as sf

server = VoxCPM.from_pretrained(model="/path/to/VoxCPM", devices=[0])
chunks = list(server.generate(target_text="你好，我来自VoxCPM！"))
sf.write("out.wav", np.concatenate(chunks), 48000)
server.stop()

在 NVIDIA RTX 4090 上 RTF 低至 ~0.13（标准 PyTorch 实现约 ~0.3），支持批量并发请求和 FastAPI HTTP 服务。详见 Nano-vLLM-VoxCPM 仓库。

🏭 生产环境部署（vLLM-Omni）

如需生产级多租户部署，使用 vLLM-Omni — 官方 vLLM 项目的全模态扩展，原生支持 VoxCPM2。具备 PagedAttention KV 缓存、连续批处理，以及与 OpenAI 完全兼容的 /v1/audio/speech 接口。

# 从源码安装（最新 main 分支 —— vllm-omni 正在快速迭代）
uv pip install vllm==0.19.0 --torch-backend=auto
git clone https://github.com/vllm-project/vllm-omni.git && cd vllm-omni
uv pip install -e .

其他平台（ROCm、XPU、MUSA、NPU）与 Docker 镜像请参考 vLLM-Omni 安装文档。

# 启动 OpenAI 兼容的 TTS 服务（--omni 启用全模态服务）
vllm serve openbmb/VoxCPM2 --omni --port 8000

# 任意 OpenAI 客户端均可调用
curl http://localhost:8000/v1/audio/speech \
  -H "Content-Type: application/json" \
  -d '{"model":"openbmb/VoxCPM2","input":"你好，欢迎使用 VoxCPM2 on vLLM-Omni！","voice":"default"}' \
  --output out.wav

基于上游 vLLM 调度器构建，开箱即用支持批量并发、流式分块输出和多 GPU 部署。完整示例见 VoxCPM2 部署样例。

完整参数说明、多场景示例与声音克隆技巧 → 快速开始指南 | 使用指南 | Cookbook

📦 模型与版本

	VoxCPM2	VoxCPM1.5	VoxCPM-0.5B
状态	🟢 最新版本	稳定版	旧版
主模型参数量	2B	0.6B	0.5B
音频采样率	48kHz	44.1kHz	16kHz
LM处理码率	6.25Hz	6.25Hz	12.5Hz
语言支持数量	30	2（中文、英文）	2（中文、英文）
克隆模式	隔离参考音频（无需文本） & 音频续写	仅音频续写	仅音频续写
音色设计	✅	—	—
可控声音克隆	✅	—	—
SFT / LoRA	✅	✅	✅
RTF (RTX 4090)	~0.30	~0.15	~0.17
RTF Nano-VLLM (RTX 4090)	~0.13	~0.08	~0.10
显存占用	~8 GB	~6 GB	~5 GB
模型权重	🤗 HF / MS	🤗 HF / MS	🤗 HF / MS
技术报告	即将发布	—	arXiv ICLR 2026
Demo 页面	音频示例	—	音频示例

VoxCPM2 采用连续音频表征、扩散自回归范式，模型在 AudioVAE 的连续隐空间中通过四阶段处理：LocEnc → TSLM → RALM → LocDiT，实现丰富的表现力语音合成和 48kHz 原生音频输出。

VoxCPM2 模型架构

完整架构细节、VoxCPM2 升级内容和模型对比表见架构设计文档。

📊 性能评测

VoxCPM2 在公开的零样本和可控 TTS 基准测试中取得了 SOTA 或可比的结果。

Seed-TTS-eval

Seed-TTS-eval WER(⬇)&SIM(⬆) 结果（点击展开）

Model	Parameters	Open-Source	test-EN		test-ZH		test-Hard
			WER/%⬇	SIM/%⬆	CER/%⬇	SIM/%⬆	CER/%⬇	SIM/%⬆
MegaTTS3	0.5B	❌	2.79	77.1	1.52	79.0	-	-
DiTAR	0.6B	❌	1.69	73.5	1.02	75.3	-	-
CosyVoice3	0.5B	❌	2.02	71.8	1.16	78.0	6.08	75.8
CosyVoice3	1.5B	❌	2.22	72.0	1.12	78.1	5.83	75.8
Seed-TTS	-	❌	2.25	76.2	1.12	79.6	7.59	77.6
MiniMax-Speech	-	❌	1.65	69.2	0.83	78.3	-	-
F5-TTS	0.3B	✅	2.00	67.0	1.53	76.0	8.67	71.3
MaskGCT	1B	✅	2.62	71.7	2.27	77.4	-	-
CosyVoice	0.3B	✅	4.29	60.9	3.63	72.3	11.75	70.9
CosyVoice2	0.5B	✅	3.09	65.9	1.38	75.7	6.83	72.4
SparkTTS	0.5B	✅	3.14	57.3	1.54	66.0	-	-
FireRedTTS	0.5B	✅	3.82	46.0	1.51	63.5	17.45	62.1
FireRedTTS-2	1.5B	✅	1.95	66.5	1.14	73.6	-	-
Qwen2.5-Omni	7B	✅	2.72	63.2	1.70	75.2	7.97	74.7
Qwen3-Omni	30B-A3B	✅	1.39	-	1.07	-	-	-
OpenAudio-s1-mini	0.5B	✅	1.94	55.0	1.18	68.5	23.37	64.3
IndexTTS2	1.5B	✅	2.23	70.6	1.03	76.5	7.12	75.5
VibeVoice	1.5B	✅	3.04	68.9	1.16	74.4	-	-
HiggsAudio-v2	3B	✅	2.44	67.7	1.50	74.0	55.07	65.6
VoxCPM-0.5B	0.6B	✅	1.85	72.9	0.93	77.2	8.87	73.0
VoxCPM1.5	0.8B	✅	2.12	71.4	1.18	77.0	7.74	73.1
MOSS-TTS		✅	1.85	73.4	1.20	78.8	-	-
Qwen3-TTS	1.7B	✅	1.23	71.7	1.22	77.0	6.76	74.8
FishAudio S2	4B	✅	0.99	-	0.54	-	5.99	-
LongCat-Audio-DiT	3.5B	✅	1.50	78.6	1.09	81.8	6.04	79.7
VoxCPM2	2B	✅	1.84	75.3	0.97	79.5	8.13	75.3

CV3-eval

CV3-eval 多语言 WER/CER(⬇) 结果（点击展开）

Model	zh	en	hard-zh	hard-en	ja	ko	de	es	fr	it	ru
CosyVoice2	4.08	6.32	12.58	11.96	9.13	19.7	-	-	-	-	-
CosyVoice3-1.5B	3.91	4.99	9.77	10.55	7.57	5.69	6.43	4.47	11.8	10.5	6.64
Fish Audio S2	2.65	2.43	9.10	4.40	3.96	2.76	2.22	2.00	6.26	2.04	2.78
VoxCPM2	3.65	5.00	8.55	8.48	5.96	5.69	4.77	3.80	9.85	4.25	5.21

MiniMax-Multilingual-Test

Minimax-MLS-test WER(⬇) 结果（点击展开）

Language	Minimax	ElevenLabs	Qwen3-TTS	FishAudio S2	VoxCPM2
Arabic	1.665	1.666	–	3.500	13.046
Cantonese	34.111	51.513	–	30.670	38.584
Chinese	2.252	16.026	0.928	0.730	1.136
Czech	3.875	2.108	–	2.840	24.132
Dutch	1.143	0.803	–	0.990	0.913
English	2.164	2.339	0.934	1.620	2.289
Finnish	4.666	2.964	–	3.330	2.632
French	4.099	5.216	2.858	3.050	4.534
German	1.906	0.572	1.235	0.550	0.679
Greek	2.016	0.991	–	5.740	2.844
Hindi	6.962	5.827	–	14.640	19.699
Indonesian	1.237	1.059	–	1.4

Core symbols most depended-on inside this repo

update

called by 55

src/voxcpm/training/accelerator.py

src/voxcpm/model/utils.py

validate_manifest

called by 14

src/voxcpm/training/validate.py

get_dtype

called by 13

src/voxcpm/model/utils.py

WNCausalConv1d

called by 12

src/voxcpm/modules/audiovae/audio_vae_v2.py

next_and_close

called by 12

src/voxcpm/model/utils.py

WNCausalConv1d

called by 11

src/voxcpm/modules/audiovae/audio_vae.py

Shape

Method 253

Function 142

Class 80

Languages

Python100%

Modules by API surface

src/voxcpm/modules/audiovae/audio_vae_v2.py56 symbols

src/voxcpm/modules/audiovae/audio_vae.py41 symbols

src/voxcpm/model/voxcpm2.py30 symbols

tests/test_cli.py28 symbols

src/voxcpm/model/voxcpm.py27 symbols

src/voxcpm/modules/minicpm4/model.py26 symbols

src/voxcpm/cli.py26 symbols

src/voxcpm/training/accelerator.py21 symbols

tests/test_validate.py19 symbols

lora_ft_webui.py16 symbols

tests/test_lora_checkpoint_loading.py14 symbols

src/voxcpm/utils/text_normalize.py13 symbols

Used by 1 indexed graphs manifest dependencies, hub-wide

github.com/mudler/LocalAI

Dependencies from manifests, versioned

addict1×

argbind1×

einops1×

funasr1×

huggingface-hub1×

inflect1×

librosa1×

matplotlib1×

modelscope1.22.0 · 1×

pydantic1×

safetensors1×

simplejson1×

For agents

$ claude mcp add VoxCPM \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact

github.com/OpenBMB/VoxCPM @2.0.3 sqlite

VoxCPM2：基于连续表征的多语言语音合成、创意音色设计与高保真声音克隆

✨ 核心特性

最新动态

目录

🚀 快速开始

安装

Python API

🗣️ 文本转语音

🎨 音色设计

🎛️ 可控声音克隆

🎙️ 极致克隆

命令行使用

Web Demo

🚢 生产部署（Nano-vLLM）

🏭 生产环境部署（vLLM-Omni）

📦 模型与版本

📊 性能评测

Seed-TTS-eval

CV3-eval

MiniMax-Multilingual-Test

Core symbols most depended-on inside this repo

Shape

Languages

Modules by API surface

Used by 1 indexed graphs manifest dependencies, hub-wide

Dependencies from manifests, versioned

For agents