小米开源OmniVoice语音克隆TTS模型，号称覆盖600余种语言_linux资讯_linux办公网

小米开源OmniVoice语音克隆TTS模型，号称覆盖600余种语言

创始人

2026-05-07 23:26:23

0次

据IT之家，小米AI实验室新一代Kaldi团队推出OmniVoice语音克隆TTS模型。官方表示，这是业内首个覆盖数百语种的语音克隆TTS模型，在中英文场景达到顶尖性能，在多语言任务中展现出超越商用系统的实力。

该模型仅用一个双向Transformer网络就直接实现文本到语音转化，省去了文本单独建模、复杂混合结构及多层级token预测等环节，是目前最简单的非自回归TTS模型。其语音合成质量优于目前同类主流模型，训练和推理速度极具优势，一天可完成10万小时训练，用PyTorch推理可达到40倍实时。

OmniVoice有两项关键设计：一是通过全码本随机掩蔽策略提升训练效率；二是首次在非自回归TTS模型中有效利用大语言模型作为预训练参数，大幅提升语音合成的可懂度。

在多语言测试中，即便仅基于开源数据训练，该模型在24语种测试中的语音相似度和可懂度均超越多款商用系统；在102种语种测试中，其语音可懂度逼近甚至优于真实语音；对于训练数据不足10小时的小语种，也能实现高质量语音合成。

该模型还具备多项实用功能：无需参考音频，仅通过描述音色属性即可生成符合预期的音色；能自动过滤参考音频中的噪声，即便在嘈杂环境下录制的音频也能克隆出高质量语音；支持插入笑声、叹气等语气符号；用户可通过简单设置纠正中英文多音字及专有名词的发音错误。

克隆语种语言中英文模型测试训练语音音频小米 IT之家

上一篇：罗氏加速布局“AI+医疗”! 官宣收购PathAI 数字病理领域迎来重大拐点

下一篇：太夸张了！AI的赚钱速度堪比贩毒！

相关内容

小米开源OmniVoice...

据IT之家，小米AI实验室新一代Kaldi团队推出OmniVoic...

2026-05-07 23:26:23

千问PC端上线AI语音输入

5月7日，来自阿里的消息，千问在PC端上线AI语音输入能力，用户通...

2026-05-07 18:29:10

“抢跑”AI新赛道！贵阳贵...

当下，词元经济成为数字经济高质量发展的新风口。今年3月，国家数据局...

2026-05-07 13:25:41

首个被叫停的AI外资收购案...

头图｜网络公开用图 2026年4月27日下午，国家发改委外商投资安...

2026-05-07 13:25:26

第一批被AI坑的游客，哭着...

把假期全交给AI的人，栽了。 ▲ 栏目 | 文旅商业评论领域|...

2026-05-07 12:29:23

智能体成为AI落地主战场

从少数人尝鲜的技术走向千行百业的普惠工具智能体成为AI落地主战场...

2026-05-07 12:28:15

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯（记者魏蔚）9月20日，阿里云无影AI云电脑在2024云栖大会上展出，该版本基于最新的终端...

MWC2025荣耀多款AI技术... 人民财讯3月6日电，2025世界移动通信大会（MWC 2025）上，荣耀MagicBook Pro ...

原创 2... #春日生活好物种草季#近年来，笔记本电脑市场迎来技术爆发期，尤其在手机厂商跨界入局后，轻薄本在性能、...

AMD锐龙AI 9 HX 37... 2024年6月3日，AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...

5个AI模特生成软件推荐当前AI模特生成软件市场提供了多样化的解决方案，以下是几款备受推崇的工具：触站AI：强烈推荐！...

骁龙本这么猛？联想YOGA A... 在人人都是自媒体的时代，一部手机可以解决出镜拍摄问题，而商务出差、大量码字、图像处理等需求用笔记本则...

摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息，摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...

2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨在服务器操作系统领域，CentOS与Ubuntu...

苹果macOS 15.1：允许... 苹果公司在其最新的macOS 15.1版本中，推出了一项引人注目的新功能——允许用户将Mac App...

原创华... 在2024年这个被誉为"AI元年"的关键时刻，随着生成式AI的流行，各家手机厂商都在积极备战AI手机...