随着AI技术的飞速迭代,实时交互体验正迎来质的飞跃。近期,Soul张璐带领团队(Soul AI Lab)正式对外开源了实时数字人生成模型SoulX-FlashTalk。这款模型凭借其14B的庞大参数量,成功实现了0.87秒的亚秒级超低延时与32fps的高帧率输出,并攻克了超长视频稳定生成的难题,为行业带来了前所未有的即时交互体验。
在用户交互体验层面,这款模型凭借四大核心指标,全方位优化实时交互质感。延迟问题一直是数字人交互的痛点,依托全栈加速引擎优化,SoulX-FlashTalk将首帧视频输出延时压缩至0.87秒,让14B级大模型实现亚秒级即时反馈,彻底消除传统模型的卡顿滞后感。低延迟特性适配视频通话、直播互动、智能客服等多元场景,保障人机对话自然流畅。
流畅度方面,该模型突破大参数量与运行效率的矛盾,推理帧率稳定达到32fps,远超直播行业25fps的通用标准。这一成果证实,经过深度优化的百亿级DiT模型,能够兼顾高参数精度与高效运行能力。同时模型依托独家自纠正双向蒸馏技术,解决长视频画面崩坏、人脸漂移难题,通过多步回溯自纠正机制实时修正画面误差,搭配双向注意力机制,精准把控人物面部细节与背景环境,实现超长视频稳定生成。
肢体交互上,模型打破传统数字人仅能对口型的局限,支持音频驱动的全身肢体动态合成。借助14B DiT模型的强悍建模能力,优化手部细节表现,消除畸形、模糊等问题,且身份一致性指标达99.22,平衡了动作灵动性与画面稳定性。
亮眼性能背后,是完善的底层技术架构。为平衡生成质量与推理速度,团队采用两阶段训练策略,先通过延迟感知时空适配完成模型微调,再依托自纠正双向蒸馏技术优化生成逻辑。此外,适配8-H800节点的全栈加速引擎,融合混合序列并行、3D VAE并行化等多项优化技术,多重手段叠加大幅降低推理延迟,提升运行效率。区别于传统单向模型,该模型保留双向注意力机制,从根源抑制画面失真、身份漂移问题。
公开数据集评测数据直观印证模型实力,在长短视频测试中,SoulX-FlashTalk表现全面领先。短视频测试里,ASE达3.51、IQA达4.79刷新视觉保真纪录,口型同步分数优异;5分钟以上长视频生成中,同步稳定性表现突出,且全程稳定维持32fps高帧率,综合性能优于行业同类模型。此次开源推动模型迈入商用落地新阶段,可广泛应用于电商直播、短视频制作、智能教育等领域,尤其适配全天候无人直播场景,有效降低运营成本。
此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案。在Soul张璐带领团队的推动下,大参数量实时生成式数字人正加速迈入可具体商用落地的新阶段,有望在电商、教育、社交等多个领域创造巨大价值。
流畅度方面,该模型突破大参数量与运行效率的矛盾,推理帧率稳定达到32fps,远超直播行业25fps的通用标准。这一成果证实,经过深度优化的百亿级DiT模型,能够兼顾高参数精度与高效运行能力。同时模型依托独家自纠正双向蒸馏技术,解决长视频画面崩坏、人脸漂移难题,通过多步回溯自纠正机制实时修正画面误差,搭配双向注意力机制,精准把控人物面部细节与背景环境,实现超长视频稳定生成。
肢体交互上,模型打破传统数字人仅能对口型的局限,支持音频驱动的全身肢体动态合成。借助14B DiT模型的强悍建模能力,优化手部细节表现,消除畸形、模糊等问题,且身份一致性指标达99.22,平衡了动作灵动性与画面稳定性。
亮眼性能背后,是完善的底层技术架构。为平衡生成质量与推理速度,团队采用两阶段训练策略,先通过延迟感知时空适配完成模型微调,再依托自纠正双向蒸馏技术优化生成逻辑。此外,适配8-H800节点的全栈加速引擎,融合混合序列并行、3D VAE并行化等多项优化技术,多重手段叠加大幅降低推理延迟,提升运行效率。区别于传统单向模型,该模型保留双向注意力机制,从根源抑制画面失真、身份漂移问题。
公开数据集评测数据直观印证模型实力,在长短视频测试中,SoulX-FlashTalk表现全面领先。短视频测试里,ASE达3.51、IQA达4.79刷新视觉保真纪录,口型同步分数优异;5分钟以上长视频生成中,同步稳定性表现突出,且全程稳定维持32fps高帧率,综合性能优于行业同类模型。此次开源推动模型迈入商用落地新阶段,可广泛应用于电商直播、短视频制作、智能教育等领域,尤其适配全天候无人直播场景,有效降低运营成本。
此次开源新模型,除了在速度、效果、延迟和保真度上表现出色,更重要的是,为行业提供了切实可应用的业务解决方案。在Soul张璐带领团队的推动下,大参数量实时生成式数字人正加速迈入可具体商用落地的新阶段,有望在电商、教育、社交等多个领域创造巨大价值。