Soul开源SoulX-FlashTalk,14B数字人实现亚秒级实时生成
创始人
2026-05-21 23:12:55
0

近期,Soul App AI团队(Soul AI Lab)正式开源实时数字人生成模型SoulX-FlashTalk,这款14B参数模型实现0.87s亚秒级超低延时、32fps高帧率输出,还能稳定生成超长视频,为行业提供可商用的实时生成式数字人解决方案,推动大参数量数字人技术落地应用。Soul团队始终深耕AI能力建设,聚焦技术创新打造沉浸多元交互体验,此次开源正是这一理念的落地,模型在速度、延迟、效果与保真度上均表现优异,助力行业突破传统数字人技术瓶颈。

SoulX-FlashTalk拥有四大核心亮点,全面升级实时互动体验。其首帧视频输出延时仅0.87s,依托全栈加速引擎极致优化,让14B级大模型数字人具备即时反应能力,消除传统大模型生成的滞后感,适配视频通话、直播弹幕互动、智能客服响应等全场景实时交互需求。同时,模型搭载14B超大DiT模型,推理吞吐量达32fps,远超直播所需25fps标准,画面丝滑流畅,印证大模型经深度加速优化后仍能保持高效运行。

针对数字人长视频生成易出现面部不一致、画质下降的痛点,SoulX-FlashTalk采用独家自纠正双向蒸馏技术,引入多步回溯自纠正机制,实时修正长序列生成误差,实现无感纠错且画质无损。模型保留双向注意力机制,每帧生成可同时参考过去与未来上下文,从根源抑制身份漂移,确保超长直播中数字人口型、面部细节与背景稳定一致,避免模糊变形。此外,模型突破传统数字人仅面部对口型的局限,支持音频驱动的全身动作生成,凭借14B DiT建模能力消除手部畸形与模糊,精准呈现手部细节,兼顾动作灵动性与99.22%的身份一致性。

技术层面,SoulX-FlashTalk采用两阶段训练策略平衡质量与速度。第一阶段为延迟感知时空适配,结合动态长宽比分桶微调;第二阶段为自纠正双向蒸馏,通过DMD框架压缩采样步数、移除CFG实现加速,搭配多步回溯自纠正与随机截断策略,高效优化显存。同时,团队打造全栈加速引擎,通过混合序列并行、算子级优化、3D VAE并行化及整链优化,大幅提升推理速度,实现亚秒级延迟。传统单向模型易出现时间不一致与身份漂移,而SoulX-FlashTalk的双向注意力机制有效解决这一问题,提升生成一致性与细节质量。

在TalkBench-Short与TalkBench-Long数据集测试中,SoulX-FlashTalk表现全面领先,短视频评测中ASE达3.51、IQA达4.79,口型同步Sync-C为1.47;长视频生成中Sync-C达1.61,且长短视频均稳定维持32fps高帧率,远超行业主流模型。依托优异性能,模型可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、NPC交互、AI客服等场景,解决传统数字人直播画质模糊、口型错位问题,降低运营成本。此前Soul AI Lab曾开源语音合成模型SoulX-Podcast,登顶HuggingFace TTS趋势榜,GitHub星标超3100,此次开源标志Soul进入开源新阶段,未来将持续推进开源,携手全球开发者共建AI+社交生态。

相关内容

阿里云刘伟光:未来,你的领...
昨天,参加了阿里云 2026 峰会。会上,阿里云资深副总裁刘伟光提...
2026-05-21 23:24:30
第二十二届文博会AI主题展...
深圳新闻网2026年5月21日讯(记者 贺靛婧 邱悦 黎耀涛)5月...
2026-05-21 23:19:55
Soul开源SoulX-F...
近期,Soul App AI团队(Soul AI Lab)正式开源...
2026-05-21 23:12:55
谁说老人搞不定AI?“冬香...
大河网讯 (记者 朱丽文)“数字时代跑得很快,但我们的老年人一个都...
2026-05-21 03:45:38
元宝“漏水”,腾讯只拿到了...
文 | 识礁Farsight AI掀起新一轮科技革命之际,腾讯拿...
2026-05-18 13:48:16
快手抄百度昆仑芯作业,可灵...
文 | 竞合人工智能 最近资本市场最有意思的一个传闻,就是快手要...
2026-05-17 16:13:06

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...