MCPcopy
hub / github.com/OpenMOSS/MOSS-TTS

github.com/OpenMOSS/MOSS-TTS @main sqlite

repository ↗ · DeepWiki ↗
1,492 symbols 4,749 edges 94 files 136 documented · 9%
README

MOSS-TTS 家族

    

OpenMOSS%2FMOSS-TTS | Trendshift

OpenClaw

WeChat Lark

English | 简体中文

MOSS‑TTS 家族是由 MOSI.AIOpenMOSS 团队 推出的开源 语音与声音生成模型家族。该系列面向 高保真高表现力复杂真实场景 设计,覆盖稳定长文本语音、多说话人对话、音色/角色设计、环境音效以及实时流式 TTS 等能力。

新闻

  • 2026.6.18:🚀 MOSS-TTS-Local-Transformer-v1.5SGLang-Omni 中获得 Day-0 支持,这是首个支持 MossTTSLocal 架构的推理后端,提供 OpenAI 兼容的 /v1/audio/speech 接口、流式输出和音色克隆。Cookbook 请见:moss_tts_localmoss_tts
  • 2026.6.18:🚀 发布 MOSS-TTS-Local-Transformer-v1.5,这是一个 4B MossTTSLocal checkpoint,继承全部 v1.5 能力(语言标签、稳定音色克隆、显式停顿控制等),将 backbone 从 Qwen3-1.7B 扩展到 Qwen3-4B,并使用 MOSS-Audio-Tokenizer-v2 实现原生 48 kHz 立体声 输出。
  • 2026.6.7:🚀 发布 MOSS-Audio-Tokenizer-v2,原生支持 48 kHz 立体声输入与输出。更多详情请查看 MOSS-Audio-Tokenizer 仓库
  • 2026.6.2:🚀 vLLM-Omni 现已支持完整 MOSS-TTS 系列(MossTTSDelayMossTTSRealtimeMossTTSNano 架构),包括 MOSS-TTS-v1.5、MOSS-TTS、MOSS-TTSD、MOSS-SoundEffect、MOSS-VoiceGenerator、MOSS-TTS-Realtime 和 MOSS-TTS-Nano。请查看 recipeexamples
  • 2026.5.26:🚀 发布 MOSS-SoundEffect-v2.0,全新文本到音频模型,采用 DiT 主干 + Flow Matching 训练目标,可从中英文本生成最长 30 秒48 kHz 的音效,详见 moss_soundeffect_v2/
  • 2026.5.26:🚀 发布 MOSS-TTS-v1.5,在提供语言标签时多语种合成更强,voice clone 更稳定,也改进了长参考短文本克隆、标点韵律跟随,并支持通过 [pause X.Ys] 显式控制停顿。
  • 2026.5.6:🚀 MOSS-TTS 和 MOSS-Audio-Tokenizer 现已支持 mlx-audio。详情请访问 mlx-audio GitHub 仓库
  • 2026.4.29:📝 MOSS-TTS 2.0 即将到来!我们正在通过需求收集表收集大家在使用 TTS 过程中的反馈、建议与功能需求。
  • 2026.4.13:🚀 ~100M 参数量的 MOSS-TTS-Nano 已发布!支持多语种 voice clone、48 kHz 立体声输入输出,并且仅需 4 核 CPU 即可实现流式输出。详情可查看 GitHub 仓库 和我们的 blog
  • 2026.3.31: 📄 MOSS-TTSDMOSS-VoiceGenerator 的技术报告现已在arXiv上发布!
  • 2026.3.26: 📘 新增 MOSS-TTS-Realtime 微调教程!
  • 2026.3.20: 📄 我们的技术报告现已在arXiv上发布!
  • 2026.3.18:🚀 在配套仓库 OpenMOSS/llama.cpp 中新增了 first-class MOSS-TTS llama.cpp 实现,提供 GGUF backbone 推理与 ONNX 音频编解码器解码的端到端可运行链路。可从 first-class e2e 指南 开始。
  • 2026.3.16:📘 新增 MossTTSLocal 架构微调教程,适用于 MOSS-TTS-Local-Transformer!
  • 2026.3.12:🚀 新增面向 MossTTSDelay 架构的 SGLang 后端支持,可用于 MOSS-TTS(Delay)和 MOSS-SoundEffect 的高效推理,生成吞吐可提升约 3 倍
  • 2026.3.11:📘 新增 MossTTSDelay 架构微调教程,适用于 MOSS-TTS(Delay)、MOSS-TTSD、MOSS-VoiceGenerator 和 MOSS-SoundEffect!
  • 2026.3.10:⚡️ 大幅优化了 llama.cpp 推理管线的显存占用。现在 8B 模型可以运行在 8GB 显存的 GPU 上!
  • 2026.3.4:新增 无 PyTorch 推理 支持 — 通过 llama.cpp + ONNX Runtime 实现端侧轻量部署。量化 GGUF 权重发布于 OpenMOSS-Team/MOSS-TTS-GGUF,ONNX 音频编解码器发布于 OpenMOSS-Team/MOSS-Audio-Tokenizer-ONNX。详见 llama.cpp 后端
  • 2026.3.4:🎉 我们在 🦞 龙虾 的 ClawHub 平台上架了 MOSS-TTS skills:feishu-voice-ttsmoss-tts-voice
  • 2026.2.10:🎉🎉🎉 我们已发布 MOSS-TTS Family。更多详情请查看我们的 Blog!我们的 Huggingface Space 在这里:MOSS-TTS, MOSS-TTSD-v1.0, MOSS-VoiceGenerator.

演示

目录

介绍

当一段音频需要 听起来像真实的人类准确发音在不同内容间切换说话风格稳定持续数十分钟,并且 支持对话、角色扮演与实时交互 时,单一 TTS 模型往往不足以胜任。MOSS‑TTS 家族将工作流拆分为 5 个可独立使用、亦可组合成完整管线的量产级模型。

  • MOSS‑TTS:MOSS‑TTS 是家族中的旗舰量产级 TTS 基础模型,核心能力是高保真以及最优性能的零样本语音克隆,支持长文本长语音生成拼音、音标与时长精细控制,以及多语种/中英混合合成。它可作为大规模旁白、配音和语音产品的核心底座。
  • MOSS‑TTSD:MOSS‑TTSD 是对话语音生成模型,用于生成高表现力、多说话人、超长连续对话的音频。本次我们更新了全新的v1.0版本,相比于0.7版本,它在音色相似度,说话人切换准确率,词错误率等客观指标上取得了业界最优的性能,在竞技场主观评测中,也战胜了豆包、Gemini2.5-pro等顶尖闭源模型。详情请访问 MOSS-TTSD 仓库
  • MOSS‑VoiceGenerator:MOSS‑VoiceGenerator 是开源音色设计模型,可从文本风格指令直接生成多样的说话人音色或风格,无需参考音频。它统一音色设计、风格控制与内容合成,可独立创作,也可作为下游 TTS 的音色设计层。模型性能在竞技场评分上超过了其余等顶尖音色设计模型
  • MOSS‑TTS‑Realtime:MOSS‑TTS‑Realtime 是面向实时语音智能体的多轮上下文感知实时 TTS 模型。它结合多轮对话中的文本与历史语音信号进行低时延增量合成,使多轮回复保持连贯、自然且音色一致。非常适合搭配文本模型构建低时延语音智能体。MOSS‑TTS‑Realtime 的 TTFB(Time To First Byte)达到180ms,$T_{\text{LLM-first-sentence}} + T_{\text{MOSS-TTS-Realtime-TTFB}}$ 整体为377ms。
  • MOSS‑SoundEffect:MOSS‑SoundEffect 是面向内容制作的音效生成模型,具备广泛类别覆盖与可控时长能力。它能根据文本指令生成自然环境、城市场景、生物、人类动作与类音乐片段等音频,适用于影视、游戏、交互体验和数据合成。

模型架构

我们在统一训练/评测框架下将 MossTTSDelayMossTTSLocal 作为互补基线:Delay 更强调长上下文稳定性、推理速度与工程可用性,Local 更强调轻量灵活和面向流式场景的客观指标表现。二者共同提供可复现、可对比的落地与研究参考。

MossTTSRealtime 不是第三个对比基线,而是面向语音智能体的能力型设计。它同时利用历史文本与用户语音声学信息建模多轮上下文,以低时延流式合成保持回复连贯和音色一致。

架构 核心机制 架构细节
MossTTSDelay 多头并行 RVQ 预测,结合延迟模式调度 Arch Details
MossTTSLocal 基于深度 Transformer 的时间同步 RVQ 模块 Arch Details
MossTTSRealtime 用于实时合成的分层文本-音频输入 Arch Details

模型概览

Model Architecture Size Model Card Hugging Face ModelScope
MOSS-TTS-v1.5 MossTTSDelay 8B Model Card Hugging Face ModelScope
MOSS-TTS 1.0 MossTTSDelay 8B Model Card Hugging Face ModelScope
MOSS-TTS-Local-Transformer-v1.5 MossTTSLocal 4B Model Card Hugging Face ModelScope
MOSS-TTS-Local-Transformer MossTTSLocal 1.7B Model Card Hugging Face ModelScope
MOSS‑TTSD‑V1.0 MossTTSDelay 8B Model Card Hugging Face ModelScope
MOSS‑VoiceGenerator MossTTSDelay 1.7B Model Card Hugging Face ModelScope
MOSS‑SoundEffect MossTTSDelay 8B Model Card Hugging Face ModelScope
MOSS‑SoundEffect‑v2.0 MossSoundEffectPipeline 1.3B DiT Model Card Hugging Face ModelScope
MOSS‑TTS‑Realtime MossTTSRealtime 1.7B [![Model Card](h

Core symbols most depended-on inside this repo

get
called by 215
moss_tts_realtime/fast_api.py
to
called by 207
moss_soundeffect_v2/diffsynth/utils/__init__.py
get
called by 58
clis/moss_tts_local_v1.5_app.py
update
called by 56
clis/moss_tts_local_v1.5_app.py
load
called by 44
moss_soundeffect_v2/diffsynth/models/dac_vae.py
encode
called by 42
moss_tts_delay/llama_cpp/pipeline.py
from_pretrained
called by 37
moss_tts_local/modeling_moss_tts.py
get
called by 36
moss_soundeffect_v2/diffsynth/trainers/cache_shards.py

Shape

Method 733
Function 565
Class 178
Route 16

Languages

Python100%

Modules by API surface

moss_tts_realtime/app.py66 symbols
moss_tts_realtime/fast_api.py64 symbols
moss_soundeffect_v2/diffsynth/models/dac_vae.py64 symbols
moss_tts_realtime/mossttsrealtime/streaming_mossttsrealtime.py57 symbols
moss_soundeffect_v2/diffsynth/trainers/utils.py54 symbols
clis/moss_tts_local_v1.5_app.py52 symbols
scripts/fuse_moss_tts_delay_with_codec.py47 symbols
moss_soundeffect_v2/diffsynth/models/wan_video_dit.py45 symbols
moss_soundeffect_v2/diffsynth/pipelines/wan_audio.py42 symbols
moss_tts_local_v1.5/processing_moss_tts.py41 symbols
moss_tts_local/modeling_moss_tts.py41 symbols
moss_tts_delay/llama_cpp/pipeline.py39 symbols

Dependencies from manifests, versioned

PyYAML6.0.3 · 1×
descript-audiotools0.7.2 · 1×
diffusers0.37.1 · 1×
einops0.8.1 · 1×
ftfy6.3.1 · 1×
gradio6.11.0 · 1×
imageio2.37.3 · 1×
librosa0.11.0 · 1×
ninja
numpy2.1.0 · 1×
orjson3.11.4 · 1×
packaging

For agents

$ claude mcp add MOSS-TTS \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact