
MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队 推出的开源 语音与声音生成模型家族。该系列面向 高保真、高表现力 与 复杂真实场景 设计,覆盖稳定长文本语音、多说话人对话、音色/角色设计、环境音效以及实时流式 TTS 等能力。
MossTTSLocal 架构的推理后端,提供 OpenAI 兼容的 /v1/audio/speech 接口、流式输出和音色克隆。Cookbook 请见:moss_tts_local、moss_tts。MossTTSLocal checkpoint,继承全部 v1.5 能力(语言标签、稳定音色克隆、显式停顿控制等),将 backbone 从 Qwen3-1.7B 扩展到 Qwen3-4B,并使用 MOSS-Audio-Tokenizer-v2 实现原生 48 kHz 立体声 输出。MossTTSDelay、MossTTSRealtime 和 MossTTSNano 架构),包括 MOSS-TTS-v1.5、MOSS-TTS、MOSS-TTSD、MOSS-SoundEffect、MOSS-VoiceGenerator、MOSS-TTS-Realtime 和 MOSS-TTS-Nano。请查看 recipe 与 examples。moss_soundeffect_v2/。[pause X.Ys] 显式控制停顿。mlx-audio。详情请访问 mlx-audio GitHub 仓库。OpenMOSS/llama.cpp 中新增了 first-class MOSS-TTS llama.cpp 实现,提供 GGUF backbone 推理与 ONNX 音频编解码器解码的端到端可运行链路。可从 first-class e2e 指南 开始。MossTTSDelay 架构的 SGLang 后端支持,可用于 MOSS-TTS(Delay)和 MOSS-SoundEffect 的高效推理,生成吞吐可提升约 3 倍!OpenMOSS-Team/MOSS-TTS-GGUF,ONNX 音频编解码器发布于 OpenMOSS-Team/MOSS-Audio-Tokenizer-ONNX。详见 llama.cpp 后端。
当一段音频需要 听起来像真实的人类、准确发音、在不同内容间切换说话风格、稳定持续数十分钟,并且 支持对话、角色扮演与实时交互 时,单一 TTS 模型往往不足以胜任。MOSS‑TTS 家族将工作流拆分为 5 个可独立使用、亦可组合成完整管线的量产级模型。
我们在统一训练/评测框架下将 MossTTSDelay 与 MossTTSLocal 作为互补基线:Delay 更强调长上下文稳定性、推理速度与工程可用性,Local 更强调轻量灵活和面向流式场景的客观指标表现。二者共同提供可复现、可对比的落地与研究参考。
MossTTSRealtime 不是第三个对比基线,而是面向语音智能体的能力型设计。它同时利用历史文本与用户语音声学信息建模多轮上下文,以低时延流式合成保持回复连贯和音色一致。
| 架构 | 核心机制 | 架构细节 |
|---|---|---|
MossTTSDelay |
多头并行 RVQ 预测,结合延迟模式调度 | |
MossTTSLocal |
基于深度 Transformer 的时间同步 RVQ 模块 | |
MossTTSRealtime |
用于实时合成的分层文本-音频输入 |
$ claude mcp add MOSS-TTS \
-- python -m otcore.mcp_server <graph>