hub / github.com/OpenMOSS/MOSS-TTS

github.com/OpenMOSS/MOSS-TTS @main sqlite

1,492 symbols 4,749 edges 94 files 136 documented · 9%

README

MOSS-TTS 家族

MOSS‑TTS 家族是由 MOSI.AI 与 OpenMOSS 团队推出的开源 语音与声音生成模型家族。该系列面向 高保真、高表现力 与 复杂真实场景 设计，覆盖稳定长文本语音、多说话人对话、音色/角色设计、环境音效以及实时流式 TTS 等能力。

新闻

2026.6.18：🚀 MOSS-TTS-Local-Transformer-v1.5 在 SGLang-Omni 中获得 Day-0 支持，这是首个支持 MossTTSLocal 架构的推理后端，提供 OpenAI 兼容的 /v1/audio/speech 接口、流式输出和音色克隆。Cookbook 请见：moss_tts_local、moss_tts。
2026.6.18：🚀 发布 MOSS-TTS-Local-Transformer-v1.5，这是一个 4B MossTTSLocal checkpoint，继承全部 v1.5 能力（语言标签、稳定音色克隆、显式停顿控制等），将 backbone 从 Qwen3-1.7B 扩展到 Qwen3-4B，并使用 MOSS-Audio-Tokenizer-v2 实现原生 48 kHz 立体声 输出。
2026.6.7：🚀 发布 MOSS-Audio-Tokenizer-v2，原生支持 48 kHz 立体声输入与输出。更多详情请查看 MOSS-Audio-Tokenizer 仓库！
2026.6.2：🚀 vLLM-Omni 现已支持完整 MOSS-TTS 系列（MossTTSDelay、MossTTSRealtime 和 MossTTSNano 架构），包括 MOSS-TTS-v1.5、MOSS-TTS、MOSS-TTSD、MOSS-SoundEffect、MOSS-VoiceGenerator、MOSS-TTS-Realtime 和 MOSS-TTS-Nano。请查看 recipe 与 examples。
2026.5.26：🚀 发布 MOSS-SoundEffect-v2.0，全新文本到音频模型，采用 DiT 主干 + Flow Matching 训练目标，可从中英文本生成最长 30 秒、48 kHz 的音效，详见 moss_soundeffect_v2/。
2026.5.26：🚀 发布 MOSS-TTS-v1.5，在提供语言标签时多语种合成更强，voice clone 更稳定，也改进了长参考短文本克隆、标点韵律跟随，并支持通过 [pause X.Ys] 显式控制停顿。
2026.5.6：🚀 MOSS-TTS 和 MOSS-Audio-Tokenizer 现已支持 mlx-audio。详情请访问 mlx-audio GitHub 仓库。
2026.4.29：📝 MOSS-TTS 2.0 即将到来！我们正在通过需求收集表收集大家在使用 TTS 过程中的反馈、建议与功能需求。
2026.4.13：🚀 ~100M 参数量的 MOSS-TTS-Nano 已发布！支持多语种 voice clone、48 kHz 立体声输入输出，并且仅需 4 核 CPU 即可实现流式输出。详情可查看 GitHub 仓库和我们的 blog。
2026.3.31: 📄 MOSS-TTSD 和 MOSS-VoiceGenerator 的技术报告现已在arXiv上发布！
2026.3.26: 📘 新增 MOSS-TTS-Realtime 微调教程！
2026.3.20: 📄 我们的技术报告现已在arXiv上发布！
2026.3.18：🚀 在配套仓库 OpenMOSS/llama.cpp 中新增了 first-class MOSS-TTS llama.cpp 实现，提供 GGUF backbone 推理与 ONNX 音频编解码器解码的端到端可运行链路。可从 first-class e2e 指南开始。
2026.3.16：📘 新增 MossTTSLocal 架构微调教程，适用于 MOSS-TTS-Local-Transformer！
2026.3.12：🚀 新增面向 MossTTSDelay 架构的 SGLang 后端支持，可用于 MOSS-TTS（Delay）和 MOSS-SoundEffect 的高效推理，生成吞吐可提升约 3 倍！
2026.3.11：📘 新增 MossTTSDelay 架构微调教程，适用于 MOSS-TTS（Delay）、MOSS-TTSD、MOSS-VoiceGenerator 和 MOSS-SoundEffect！
2026.3.10：⚡️ 大幅优化了 llama.cpp 推理管线的显存占用。现在 8B 模型可以运行在 8GB 显存的 GPU 上！
2026.3.4：新增 无 PyTorch 推理 支持 — 通过 llama.cpp + ONNX Runtime 实现端侧轻量部署。量化 GGUF 权重发布于 OpenMOSS-Team/MOSS-TTS-GGUF，ONNX 音频编解码器发布于 OpenMOSS-Team/MOSS-Audio-Tokenizer-ONNX。详见 llama.cpp 后端。
2026.3.4：🎉 我们在 🦞 龙虾的 ClawHub 平台上架了 MOSS-TTS skills：feishu-voice-tts 与 moss-tts-voice。
2026.2.10：🎉🎉🎉 我们已发布 MOSS-TTS Family。更多详情请查看我们的 Blog！我们的 Huggingface Space 在这里：MOSS-TTS, MOSS-TTSD-v1.0, MOSS-VoiceGenerator.

演示

MOSS-TTS 家族
新闻
演示
目录
介绍
模型架构
模型概览
支持的语言
MOSS-TTS-v1.5
MOSS-TTS-Local-Transformer-v1.5
快速开始
- OpenClaw API Skills
- 环境准备
- 使用 Conda
- 使用 uv
- （可选）安装 FlashAttention 2
- MOSS‑TTS 基础用法
微调
llama.cpp 后端（无 PyTorch 推理）
- 快速开始
- 安装方案
- 模型权重
- 配置
加速推理后端
- SGLang-Omni
- vLLM-Omni
评测
- MOSS‑TTS 评测
- MOSS‑TTSD 评测
- 客观评测
- 主观评测
- MOSS‑VoiceGenerator 主观评测
- MOSS‑TTS-Realtime 评测
MOSS-TTS-Nano
- 介绍
- 模型权重
语音编解码器
- 介绍
- 模型权重
- 重建质量客观评测
📚 更多信息
- 🌟 社区项目
证书
引用
星标历史数据

介绍

当一段音频需要 听起来像真实的人类、准确发音、在不同内容间切换说话风格、稳定持续数十分钟，并且 支持对话、角色扮演与实时交互 时，单一 TTS 模型往往不足以胜任。MOSS‑TTS 家族将工作流拆分为 5 个可独立使用、亦可组合成完整管线的量产级模型。

MOSS‑TTS：MOSS‑TTS 是家族中的旗舰量产级 TTS 基础模型，核心能力是高保真以及最优性能的零样本语音克隆，支持长文本长语音生成、拼音、音标与时长精细控制，以及多语种/中英混合合成。它可作为大规模旁白、配音和语音产品的核心底座。
MOSS‑TTSD：MOSS‑TTSD 是对话语音生成模型，用于生成高表现力、多说话人、超长连续对话的音频。本次我们更新了全新的v1.0版本，相比于0.7版本，它在音色相似度，说话人切换准确率，词错误率等客观指标上取得了业界最优的性能，在竞技场主观评测中，也战胜了豆包、Gemini2.5-pro等顶尖闭源模型。详情请访问 MOSS-TTSD 仓库。
MOSS‑VoiceGenerator：MOSS‑VoiceGenerator 是开源音色设计模型，可从文本风格指令直接生成多样的说话人音色或风格，无需参考音频。它统一音色设计、风格控制与内容合成，可独立创作，也可作为下游 TTS 的音色设计层。模型性能在竞技场评分上超过了其余等顶尖音色设计模型。
MOSS‑TTS‑Realtime：MOSS‑TTS‑Realtime 是面向实时语音智能体的多轮上下文感知实时 TTS 模型。它结合多轮对话中的文本与历史语音信号进行低时延增量合成，使多轮回复保持连贯、自然且音色一致。非常适合搭配文本模型构建低时延语音智能体。MOSS‑TTS‑Realtime 的 TTFB（Time To First Byte）达到180ms，$T_{\text{LLM-first-sentence}} + T_{\text{MOSS-TTS-Realtime-TTFB}}$ 整体为377ms。
MOSS‑SoundEffect：MOSS‑SoundEffect 是面向内容制作的音效生成模型，具备广泛类别覆盖与可控时长能力。它能根据文本指令生成自然环境、城市场景、生物、人类动作与类音乐片段等音频，适用于影视、游戏、交互体验和数据合成。

模型架构

我们在统一训练/评测框架下将 MossTTSDelay 与 MossTTSLocal 作为互补基线：Delay 更强调长上下文稳定性、推理速度与工程可用性，Local 更强调轻量灵活和面向流式场景的客观指标表现。二者共同提供可复现、可对比的落地与研究参考。

MossTTSRealtime 不是第三个对比基线，而是面向语音智能体的能力型设计。它同时利用历史文本与用户语音声学信息建模多轮上下文，以低时延流式合成保持回复连贯和音色一致。

架构	核心机制	架构细节
`MossTTSDelay`	多头并行 RVQ 预测，结合延迟模式调度
`MossTTSLocal`	基于深度 Transformer 的时间同步 RVQ 模块
`MossTTSRealtime`	用于实时合成的分层文本-音频输入

模型概览

Model	Architecture	Size	Model Card
MOSS-TTS-v1.5	`MossTTSDelay`	8B
MOSS-TTS 1.0	`MossTTSDelay`	8B
MOSS-TTS-Local-Transformer-v1.5	`MossTTSLocal`	4B
MOSS-TTS-Local-Transformer	`MossTTSLocal`	1.7B
MOSS‑TTSD‑V1.0	`MossTTSDelay`	8B
MOSS‑VoiceGenerator	`MossTTSDelay`	1.7B
MOSS‑SoundEffect	`MossTTSDelay`	8B
MOSS‑SoundEffect‑v2.0	`MossSoundEffectPipeline`	1.3B DiT
MOSS‑TTS‑Realtime	`MossTTSRealtime`	1.7B	[![Model Card](h

Core symbols most depended-on inside this repo

get

called by 215

moss_tts_realtime/fast_api.py

called by 207

moss_soundeffect_v2/diffsynth/utils/__init__.py

get

called by 58

clis/moss_tts_local_v1.5_app.py

update

called by 56

clis/moss_tts_local_v1.5_app.py

load

called by 44

moss_soundeffect_v2/diffsynth/models/dac_vae.py

encode

called by 42

moss_tts_delay/llama_cpp/pipeline.py

from_pretrained

called by 37

moss_tts_local/modeling_moss_tts.py

get

called by 36

moss_soundeffect_v2/diffsynth/trainers/cache_shards.py

Shape

Method 733

Function 565

Class 178

Route 16

Languages

Python100%

Modules by API surface

moss_tts_realtime/app.py66 symbols

moss_tts_realtime/fast_api.py64 symbols

moss_soundeffect_v2/diffsynth/models/dac_vae.py64 symbols

moss_tts_realtime/mossttsrealtime/streaming_mossttsrealtime.py57 symbols

moss_soundeffect_v2/diffsynth/trainers/utils.py54 symbols

clis/moss_tts_local_v1.5_app.py52 symbols

scripts/fuse_moss_tts_delay_with_codec.py47 symbols

moss_soundeffect_v2/diffsynth/models/wan_video_dit.py45 symbols

moss_soundeffect_v2/diffsynth/pipelines/wan_audio.py42 symbols

moss_tts_local_v1.5/processing_moss_tts.py41 symbols

moss_tts_local/modeling_moss_tts.py41 symbols

moss_tts_delay/llama_cpp/pipeline.py39 symbols

Dependencies from manifests, versioned

PyYAML6.0.3 · 1×

descript-audiotools0.7.2 · 1×

diffusers0.37.1 · 1×

einops0.8.1 · 1×

ftfy6.3.1 · 1×

gradio6.11.0 · 1×

imageio2.37.3 · 1×

librosa0.11.0 · 1×

ninja1×

numpy2.1.0 · 1×

orjson3.11.4 · 1×

packaging1×

For agents

$ claude mcp add MOSS-TTS \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact