Soul开源SoulX-FlashTalk，14B数字人实现亚秒级实时生成_linux资讯

Soul开源SoulX-FlashTalk，14B数字人实现亚秒级实时生成

创始人

2026-05-21 23:12:55

0次

近期，Soul App AI团队（Soul AI Lab）正式开源实时数字人生成模型SoulX-FlashTalk，这款14B参数模型实现0.87s亚秒级超低延时、32fps高帧率输出，还能稳定生成超长视频，为行业提供可商用的实时生成式数字人解决方案，推动大参数量数字人技术落地应用。Soul团队始终深耕AI能力建设，聚焦技术创新打造沉浸多元交互体验，此次开源正是这一理念的落地，模型在速度、延迟、效果与保真度上均表现优异，助力行业突破传统数字人技术瓶颈。

SoulX-FlashTalk拥有四大核心亮点，全面升级实时互动体验。其首帧视频输出延时仅0.87s，依托全栈加速引擎极致优化，让14B级大模型数字人具备即时反应能力，消除传统大模型生成的滞后感，适配视频通话、直播弹幕互动、智能客服响应等全场景实时交互需求。同时，模型搭载14B超大DiT模型，推理吞吐量达32fps，远超直播所需25fps标准，画面丝滑流畅，印证大模型经深度加速优化后仍能保持高效运行。

针对数字人长视频生成易出现面部不一致、画质下降的痛点，SoulX-FlashTalk采用独家自纠正双向蒸馏技术，引入多步回溯自纠正机制，实时修正长序列生成误差，实现无感纠错且画质无损。模型保留双向注意力机制，每帧生成可同时参考过去与未来上下文，从根源抑制身份漂移，确保超长直播中数字人口型、面部细节与背景稳定一致，避免模糊变形。此外，模型突破传统数字人仅面部对口型的局限，支持音频驱动的全身动作生成，凭借14B DiT建模能力消除手部畸形与模糊，精准呈现手部细节，兼顾动作灵动性与99.22%的身份一致性。

技术层面，SoulX-FlashTalk采用两阶段训练策略平衡质量与速度。第一阶段为延迟感知时空适配，结合动态长宽比分桶微调；第二阶段为自纠正双向蒸馏，通过DMD框架压缩采样步数、移除CFG实现加速，搭配多步回溯自纠正与随机截断策略，高效优化显存。同时，团队打造全栈加速引擎，通过混合序列并行、算子级优化、3D VAE并行化及整链优化，大幅提升推理速度，实现亚秒级延迟。传统单向模型易出现时间不一致与身份漂移，而SoulX-FlashTalk的双向注意力机制有效解决这一问题，提升生成一致性与细节质量。

在TalkBench-Short与TalkBench-Long数据集测试中，SoulX-FlashTalk表现全面领先，短视频评测中ASE达3.51、IQA达4.79，口型同步Sync-C为1.47；长视频生成中Sync-C达1.61，且长短视频均稳定维持32fps高帧率，远超行业主流模型。依托优异性能，模型可广泛应用于电商7×24小时AI直播、短视频制作、AI教育、NPC交互、AI客服等场景，解决传统数字人直播画质模糊、口型错位问题，降低运营成本。此前Soul AI Lab曾开源语音合成模型SoulX-Podcast，登顶HuggingFace TTS趋势榜，GitHub星标超3100，此次开源标志Soul进入开源新阶段，未来将持续推进开源，携手全球开发者共建AI+社交生态。

实时 Soul 传统模型直播远超视频数字一致 Sync-C 口型画质 32fps

上一篇：网易2026Q1财报公布：净收入306亿元上线国内首个100%开源龙虾

下一篇：中国人民大学经济学院教授高德步：AI的灵魂是人文，人文赋予AI以价值

Soul开源SoulX-FlashTalk，14B数字人实现亚秒级实时生成

相关内容

热门资讯