Soul张璐带领团队突破技术壁垒,高帧率数字人模型正式开源上线
创始人
2026-05-22 14:55:03
0

随着AI技术的飞速迭代,实时交互体验正迎来质的飞跃。近期,Soul张璐带领团队(Soul AI Lab)正式对外开源了实时数字人生成模型SoulX-FlashTalk。这款模型凭借其14B的庞大参数量,成功实现了0.87秒的亚秒级超低延时与32fps的高帧率输出,并攻克了超长视频稳定生成的难题,为行业带来了前所未有的即时交互体验。

在用户交互体验层面,这款模型凭借四大核心指标,全方位优化实时交互质感。延迟问题一直是数字人交互的痛点,依托全栈加速引擎优化,SoulX-FlashTalk将首帧视频输出延时压缩至0.87秒,让14B级大模型实现亚秒级即时反馈,彻底消除传统模型的卡顿滞后感。低延迟特性适配视频通话、直播互动、智能客服等多元场景,保障人机对话自然流畅。

流畅度方面,该模型突破大参数量与运行效率的矛盾,推理帧率稳定达到32fps,远超直播行业25fps的通用标准。这一成果证实,经过深度优化的百亿级DiT模型,能够兼顾高参数精度与高效运行能力。同时模型依托独家自纠正双向蒸馏技术,解决长视频画面崩坏、人脸漂移难题,通过多步回溯自纠正机制实时修正画面误差,搭配双向注意力机制,精准把控人物面部细节与背景环境,实现超长视频稳定生成。

肢体交互上,模型打破传统数字人仅能对口型的局限,支持音频驱动的全身肢体动态合成。借助14B DiT模型的强悍建模能力,优化手部细节表现,消除畸形、模糊等问题,且身份一致性指标达99.22,平衡了动作灵动性与画面稳定性。

亮眼性能背后,是完善的底层技术架构。为平衡生成质量与推理速度,团队采用两阶段训练策略,先通过延迟感知时空适配完成模型微调,再依托自纠正双向蒸馏技术优化生成逻辑。此外,适配8-H800节点的全栈加速引擎,融合混合序列并行、3D VAE并行化等多项优化技术,多重手段叠加大幅降低推理延迟,提升运行效率。区别于传统单向模型,该模型保留双向注意力机制,从根源抑制画面失真、身份漂移问题。

公开数据集评测数据直观印证模型实力,在长短视频测试中,SoulX-FlashTalk表现全面领先。短视频测试里,ASE达3.51、IQA达4.79刷新视觉保真纪录,口型同步分数优异;5分钟以上长视频生成中,同步稳定性表现突出,且全程稳定维持32fps高帧率,综合性能优于行业同类模型。此次开源推动模型迈入商用落地新阶段,可广泛应用于电商直播、短视频制作、智能教育等领域,尤其适配全天候无人直播场景,有效降低运营成本。

此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案。在Soul张璐带领团队的推动下,大参数量实时生成式数字人正加速迈入可具体商用落地的新阶段,有望在电商、教育、社交等多个领域创造巨大价值。

流畅度方面,该模型突破大参数量与运行效率的矛盾,推理帧率稳定达到32fps,远超直播行业25fps的通用标准。这一成果证实,经过深度优化的百亿级DiT模型,能够兼顾高参数精度与高效运行能力。同时模型依托独家自纠正双向蒸馏技术,解决长视频画面崩坏、人脸漂移难题,通过多步回溯自纠正机制实时修正画面误差,搭配双向注意力机制,精准把控人物面部细节与背景环境,实现超长视频稳定生成。

肢体交互上,模型打破传统数字人仅能对口型的局限,支持音频驱动的全身肢体动态合成。借助14B DiT模型的强悍建模能力,优化手部细节表现,消除畸形、模糊等问题,且身份一致性指标达99.22,平衡了动作灵动性与画面稳定性。

亮眼性能背后,是完善的底层技术架构。为平衡生成质量与推理速度,团队采用两阶段训练策略,先通过延迟感知时空适配完成模型微调,再依托自纠正双向蒸馏技术优化生成逻辑。此外,适配8-H800节点的全栈加速引擎,融合混合序列并行、3D VAE并行化等多项优化技术,多重手段叠加大幅降低推理延迟,提升运行效率。区别于传统单向模型,该模型保留双向注意力机制,从根源抑制画面失真、身份漂移问题。

公开数据集评测数据直观印证模型实力,在长短视频测试中,SoulX-FlashTalk表现全面领先。短视频测试里,ASE达3.51、IQA达4.79刷新视觉保真纪录,口型同步分数优异;5分钟以上长视频生成中,同步稳定性表现突出,且全程稳定维持32fps高帧率,综合性能优于行业同类模型。此次开源推动模型迈入商用落地新阶段,可广泛应用于电商直播、短视频制作、智能教育等领域,尤其适配全天候无人直播场景,有效降低运营成本。

此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案。在Soul张璐带领团队的推动下,大参数量实时生成式数字人正加速迈入可具体商用落地的新阶段,有望在电商、教育、社交等多个领域创造巨大价值。

相关内容

华为星河AI网络,重构酒店...
文/乐居财经 许淑敏 站在2026年数智化发展的关键节点,AI技术...
2026-05-22 15:16:59
国产AI算力,行情还能继续...
最近科技板块中的国产AI算力又重新站到了聚光灯下。 一边是AI应用...
2026-05-22 15:13:38
电厂 | 赛力斯的实验:用...
作者 商迪安 汽车工业是“人类工业皇冠上的明珠”,其特点是高度集成...
2026-05-22 15:03:38
鹏鼎控股:凭高端技术布局A...
有投资者在互动平台向鹏鼎控股提问:“公司作为全品类PCB龙头企业,...
2026-05-22 14:58:34
Soul张璐带领团队突破技...
随着AI技术的飞速迭代,实时交互体验正迎来质的飞跃。近期,Soul...
2026-05-22 14:55:03

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...