小米开源OmniVoice语音克隆TTS模型,号称覆盖600余种语言
创始人
2026-05-07 23:26:23
0

据IT之家,小米AI实验室新一代Kaldi团队推出OmniVoice语音克隆TTS模型。官方表示,这是业内首个覆盖数百语种的语音克隆TTS模型,在中英文场景达到顶尖性能,在多语言任务中展现出超越商用系统的实力。

该模型仅用一个双向Transformer网络就直接实现文本到语音转化,省去了文本单独建模、复杂混合结构及多层级token预测等环节,是目前最简单的非自回归TTS模型。其语音合成质量优于目前同类主流模型,训练和推理速度极具优势,一天可完成10万小时训练,用PyTorch推理可达到40倍实时。

OmniVoice有两项关键设计:一是通过全码本随机掩蔽策略提升训练效率;二是首次在非自回归TTS模型中有效利用大语言模型作为预训练参数,大幅提升语音合成的可懂度。

在多语言测试中,即便仅基于开源数据训练,该模型在24语种测试中的语音相似度和可懂度均超越多款商用系统;在102种语种测试中,其语音可懂度逼近甚至优于真实语音;对于训练数据不足10小时的小语种,也能实现高质量语音合成。

该模型还具备多项实用功能:无需参考音频,仅通过描述音色属性即可生成符合预期的音色;能自动过滤参考音频中的噪声,即便在嘈杂环境下录制的音频也能克隆出高质量语音;支持插入笑声、叹气等语气符号;用户可通过简单设置纠正中英文多音字及专有名词的发音错误。

相关内容

小米开源OmniVoice...
据IT之家,小米AI实验室新一代Kaldi团队推出OmniVoic...
2026-05-07 23:26:23
千问PC端上线AI语音输入
5月7日,来自阿里的消息,千问在PC端上线AI语音输入能力,用户通...
2026-05-07 18:29:10
“抢跑”AI新赛道!贵阳贵...
当下,词元经济成为数字经济高质量发展的新风口。今年3月,国家数据局...
2026-05-07 13:25:41
首个被叫停的AI外资收购案...
头图|网络公开用图 2026年4月27日下午,国家发改委外商投资安...
2026-05-07 13:25:26
第一批被AI坑的游客,哭着...
把假期全交给AI的人,栽了。 ▲ 栏目 | 文旅商业评论 领域|...
2026-05-07 12:29:23
智能体成为AI落地主战场
从少数人尝鲜的技术走向千行百业的普惠工具 智能体成为AI落地主战场...
2026-05-07 12:28:15

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...