超600种语言，一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS

2026-05-08 08:57 来源：小米技术人工智能 15 次阅读

摘要：数秒克隆语音早已不是新鲜事，但能覆盖600+语种的语音克隆 TTS 模型，你见过吗！主流音色克隆 TTS 模型的多语言支持最多停留在几十种，大量低资源小语种始终难以覆盖，成为行业痛点。小米AI实验室新一代Kaldi团队全新推出 OmniVoice，以创新的极简架构打破这一局限，不仅在中英文场景达到顶尖性能，更在多语言任务中展现出超越商用系统的实力，是业内首个覆盖数百语种的语音克隆 TTS 模型，在

数秒克隆语音早已不是新鲜事，但能覆盖600+语种的语音克隆 TTS 模型，你见过吗！主流音色克隆 TTS 模型的多语言支持最多停留在几十种，大量低资源小语种始终难以覆盖，成为行业痛点。小米AI实验室新一代Kaldi团队全新推出 OmniVoice，以创新的极简架构打破这一局限，不仅在中英文场景达到顶尖性能，更在多语言任务中展现出超越商用系统的实力，是业内首个覆盖数百语种的语音克隆 TTS 模型，在低资源小语种上具备极强的泛化能力，你想得到的所有语种几乎都可以用 OmniVoice 来合成。

极简架构，超强实力，LLM 加持，彻底解决读不准问题

OmniVoice 模型架构

OmniVoice最亮眼的突破，莫过于它极简的模型架构。它仅用一个双向 Transformer 网络，就能直接实现文本到语音的转化，省去了多余的结构和环节：没有文本的单独建模，没有复杂的混合结构，也没有多层级的 token 预测，是目前最简单的非自回归 TTS 模型。不少人或许会产生疑问：如此简单的架构，性能能达标吗？答案是不仅达标，还远超预期。

我们对 OmniVoice 的中英文能力进行了严谨验证，OmniVoice 的语音合成质量优于目前同类主流模型，同时，训练和推理速度极具优势，一天完成10万小时训练，用 PyTorch 推理就可以达到40倍实时，轻松适配各类应用场景。

中英文测试集上的TTS性能对比

这份“极简却极强”的实力，源于两个关键设计：一是通过全码本随机掩蔽策略，显著提升模型的训练效率，进而全面提升模型能力；二是引入大语言模型作为模型的预训练参数，首次在非自回归 TTS 模型中有效利用大语言模型，让语音合成的可懂度大幅提升，彻底解决了“读不准”的问题。

纯开源数据打造，性能超越商用系统

要实现多语言语音合成，高质量的多语言数据集是核心。OmniVoice 依托开源社区的力量，收集了50个开源语音数据集，经过降噪、质量筛选等处理，最终构建了涵盖 646 种语种、总时长 58 万小时的多语言训练数据集。考虑到不同语种的数据量差异极大，我们采用低资源语种动态上采样训练策略，保证了低资源小语种的训练效果。

在多语言测试中，OmniVoice 表现惊艳：即便仅基于开源数据训练，在24语种的测试中，其语音相似度和可懂度均超越多款商用系统；在102种语种的测试中，它的语音可懂度逼近甚至优于真实语音，充分展现了其强大的多语言泛化能力；即便对于训练数据不足10小时的小语种，OmniVoice 也能实现高质量的语音合成，大大降低了低资源语种的语音合成门槛。