内容出海“利器”:趣丸科技与港中大(深圳)发布首款开源模型
创始人
2024-10-26 12:50:12
0

10月24日,趣丸科技宣布与香港中文大学(深圳)联合研发的语音大模型“MaskGCT”正式在Amphion系统中开源,面向全球用户开放使用。区别于传统TTS模型,该模型采用掩码生成模型与语音表征解耦编码的创新范式,在声音克隆、跨语种合成、语音控制等任务中展现出卓越效果。

资料显示,MaskGCT(Masked Generative Codec Transformer)是一个大规模的零样本TTS模型,采用非自回归掩码生成Transformer,无需文本与语音的对齐监督和音素级持续时间预测。其技术突破性在于采用掩码生成模型与语音表征解耦编码的创新范式。实验表明,MaskGCT在语音质量、相似度和可理解性方面优于当前最先进的TTS模型,并且在模型规模和训练数据量增加时表现更佳,同时能够控制生成语音的总时长。MaskGCT已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统Amphion发布。

趣丸科技方面表示,相较于现有的TTS大模型,MaskGCT在语音的相似度、质量和稳定性上进一步突破,尤其在语音相似度方面处于领先水平。据介绍,MaskGCT在三个TTS基准数据集上都达到了SOTA效果,超过当前最先进的同类模型。

目前,MaskGCT在短剧出海、数字人、智能助手、有声读物、辅助教育等领域拥有丰富的应用场景。为了加快落地应用,在安全合规下,趣丸科技打造了多语种速译智能视听平台“趣丸千音”。一键上传视频即可快速翻译成多语种版本,并实现字幕修复与翻译、语音翻译、唇音同步等功能。该产品进一步革新视频翻译制作流程,大幅降低过往昂贵的人工翻译成本和冗长的制作周期,成为影视、游戏、短剧等内容出海的理想平台。

南方+记者 叶丹

【作者】 叶丹

【来源】 南方报业传媒集团南方+客户端

相关内容

级数AI与阿里云达成全栈A...
近日,国内教育企业广州级数人工智能科技有限公司(下称“级数AI”)...
2025-11-19 19:17:22
绚星智慧科技发布AI实践白...
【11月19日绚星智慧科技发布AI实践白皮书】11月19日,绚星智...
2025-11-19 19:16:47
登顶开源SOTA!上交大&...
机器之心发布 机器之心编辑部 在过去两年,大语言模型 (LLM) ...
2025-11-19 14:45:35
安谋科技AI产品“周易”X...
在端侧AI计算领域,一个核心的设计难题长期困扰着业界:如何在硬件架...
2025-11-19 12:17:00
学术不端被解聘的江苏科大教...
近日,江苏科技大学教授、博士生导师郭某涉嫌学术造假、侵占国家科研经...
2025-11-19 12:16:56
奇富科技发布Q3财报:AI...
11月19日,奇富科技发布2025年第三季度财务报告。公司持续深化...
2025-11-19 11:45:10

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...