小米开源可控视频音效生成模型ControlFoley，达到开源SOTA_linux资讯

小米开源可控视频音效生成模型ControlFoley，达到开源SOTA

创始人

2026-06-01 00:41:13

0次

IT之家 5 月 29 日消息，小米大模型应用团队今日发布 ControlFoley 开源模型，面向视频同步音效生成中的“可控性”难题，统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。

ControlFoley 在多个视频音效生成任务上达到开源 SOTA表现，在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。

给一段无声视频自动配上音效，已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音，让无声视频变得更完整、更有沉浸感。

然而，如果模型只会根据画面自动猜声音，创作者就很难真正控制配音结果。视频音效生成的下一步，需要从“看画面配声音”走向“按意图配声音”。为此，小米大模型应用团队提出并开源了 ControlFoley，一个统一且可控的视频音效生成框架。它不只让视频“有声音”，更希望让声音真正“按你想要的来”。

ControlFoley 的核心目标，是构建一个统一的可控视频音效生成框架，让模型同时具备三类能力：

TV2A：文本引导视频配音。根据视频和文本提示生成同步音效，文本用于补充和细化画面中的声音语义。
TC-V2A：文本控制视频配音。当文本和视频语义发生冲突时，模型仍能遵循文本意图生成目标声音，同时保持和视频动作的时间同步。
AC-V2A：参考音频控制视频配音。根据视频和参考音频生成同步音效，让输出声音在音色和风格上贴近参考音频，同时不破坏视频节奏。

这意味着，ControlFoley 不只是一个“视频生音频”模型，而是一个面向创作控制的多模态音频生成模型。

▲ ControlFoley 模型架构：联合视觉编码、时间-音色解耦与多模态鲁棒训练共同支撑可控视频音效生成联合视觉编码：既理解画面，也听懂控制意图

在视频音效生成中，视觉信息非常强势。它能告诉模型画面中发生了什么，但也容易在多模态融合时压制文本控制。为此，团队新提出并自训练了时空音视频编码器 CAV-MAE-ST，用来增强模型对音视频事件、动作节奏和时间同步关系的理解。

▲ 时空音视频编码器 CAV-MAE-ST

简单理解，CLIP 更擅长理解视觉与文本之间的通用语义关系；CAV-MAE-ST 则面向视频配音任务重新设计和训练，更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模，帮助模型捕捉动作节奏、音频事件和时间同步线索。

二者结合后，ControlFoley 既能保留强音画同步能力，又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事，用户想要另一种声音”的场景下，不再只是被画面牵着走。

时间-音色解耦：让参考音频控制风格，而不扰乱同步

参考音频控制的难点在于：一段音频里同时包含“听起来像什么”和“什么时候发生”两类信息。如果模型直接使用参考音频，参考音频里的节奏和时间结构可能会干扰视频本身的动作同步。结果就是，声音风格没控稳，音画同步也被破坏。

ControlFoley 采用时间-音色解耦策略，抑制参考音频中冗余的时间信息，保留更关键的全局音色特征。这样一来，参考音频主要负责控制“声音听起来像什么”，视频则继续负责控制“声音什么时候发生”。

模态鲁棒训练：一个模型，适配多种输入组合

真实使用中，用户提供的条件并不固定：有时只有视频，有时有视频和文本，有时还会额外提供参考音频。

ControlFoley 采用随机模态 dropout 和统一多模态表示对齐训练，让模型在不同条件组合下都能保持稳定。同时，模型通过统一 REPA 对齐目标，将生成音频的内部表示与聚合后的多模态条件对齐，提升语义一致性和控制鲁棒性。换句话说，ControlFoley 不是为某一个单点任务“特化”出来的模型，而是一个统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架。

在常规视频配音任务 TV2A 上，ControlFoley 在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个 benchmark 上取得开源 SOTA 表现。

结果对比显示，ControlFoley 在多个数据集上均取得更好的语义对齐、时间同步和声音质量表现。

下图展示了典型视频配音结果的频谱对比。以乐器演奏和体育运动两类典型场景为例，ControlFoley 生成的音频在动作发生的关键时刻能够对齐视频节奏，同时保留更完整的高频细节；相比之下，部分方法会出现声音事件错位、漏掉关键动作声音，或生成与画面不匹配的音频。直观来看，ControlFoley 不仅能“配上声音”，也更能把声音配准、配细。

对标商业闭源系统 Kling-Foley，ControlFoley 在关键体验指标上同样展现出竞争力。在语义对齐、时间同步和声音质量等关键体验指标上，ControlFoley 相比 Kling-Foley 展现出稳定优势；完整客观指标可见技术报告。

可控控制模型音效声音文本画面视频视觉编码音频

上一篇：洞见DeepInsight㉔｜中国新能源汽车为何赢得全球消费者青睐？Why Are Chinese NEVs Winning Over Global Consumers?

下一篇：黄仁勋：AI时代无需过度纠结“应该学什么专业”，工作中所需的“人性”部分无法被AI取代

小米开源可控视频音效生成模型ControlFoley，达到开源SOTA

相关内容

热门资讯