小米开源可控视频音效生成模型ControlFoley,达到开源SOTA
创始人
2026-06-01 00:41:13
0

IT之家 5 月 29 日消息,小米大模型应用团队今日发布 ControlFoley 开源模型,面向视频同步音效生成中的“可控性”难题,统一支持文本引导视频配音、文本控制视频配音和参考音频控制视频配音三类任务。

ControlFoley 在多个视频音效生成任务上达到开源 SOTA表现,在语义对齐、时间同步、声音质量以及多模态控制能力上取得全面提升。代码、模型权重、技术报告、在线 Demo 和开箱即用 Skill 均已开放。

给一段无声视频自动配上音效,已经不再是新鲜事。视频音效生成模型可以根据画面内容生成匹配的声音,让无声视频变得更完整、更有沉浸感。

然而,如果模型只会根据画面自动猜声音,创作者就很难真正控制配音结果。视频音效生成的下一步,需要从“看画面配声音”走向“按意图配声音”。为此,小米大模型应用团队提出并开源了 ControlFoley,一个统一且可控的视频音效生成框架。它不只让视频“有声音”,更希望让声音真正“按你想要的来”

ControlFoley 的核心目标,是构建一个统一的可控视频音效生成框架,让模型同时具备三类能力:

  • TV2A:文本引导视频配音。根据视频和文本提示生成同步音效,文本用于补充和细化画面中的声音语义。
  • TC-V2A:文本控制视频配音。当文本和视频语义发生冲突时,模型仍能遵循文本意图生成目标声音,同时保持和视频动作的时间同步。
  • AC-V2A:参考音频控制视频配音。根据视频和参考音频生成同步音效,让输出声音在音色和风格上贴近参考音频,同时不破坏视频节奏。

这意味着,ControlFoley 不只是一个“视频生音频”模型,而是一个面向创作控制的多模态音频生成模型

▲ ControlFoley 模型架构:联合视觉编码、时间-音色解耦与多模态鲁棒训练共同支撑可控视频音效生成联合视觉编码:既理解画面,也听懂控制意图

在视频音效生成中,视觉信息非常强势。它能告诉模型画面中发生了什么,但也容易在多模态融合时压制文本控制。为此,团队新提出并自训练了时空音视频编码器 CAV-MAE-ST,用来增强模型对音视频事件、动作节奏和时间同步关系的理解。

▲ 时空音视频编码器 CAV-MAE-ST

简单理解,CLIP 更擅长理解视觉与文本之间的通用语义关系;CAV-MAE-ST 则面向视频配音任务重新设计和训练,更关注“动作什么时候发生、声音应该什么时候出现”这类音视频时空对应关系。它通过视频帧与音频特征的联合建模,帮助模型捕捉动作节奏、音频事件和时间同步线索。

二者结合后,ControlFoley 既能保留强音画同步能力,又能在文本与视觉发生冲突时更好地响应文本控制。这让模型在“画面是一回事,用户想要另一种声音”的场景下,不再只是被画面牵着走。

时间-音色解耦:让参考音频控制风格,而不扰乱同步

参考音频控制的难点在于:一段音频里同时包含“听起来像什么”和“什么时候发生”两类信息。如果模型直接使用参考音频,参考音频里的节奏和时间结构可能会干扰视频本身的动作同步。结果就是,声音风格没控稳,音画同步也被破坏。

ControlFoley 采用时间-音色解耦策略,抑制参考音频中冗余的时间信息,保留更关键的全局音色特征。这样一来,参考音频主要负责控制“声音听起来像什么”,视频则继续负责控制“声音什么时候发生”。

模态鲁棒训练:一个模型,适配多种输入组合

真实使用中,用户提供的条件并不固定:有时只有视频,有时有视频和文本,有时还会额外提供参考音频。

ControlFoley 采用随机模态 dropout 和统一多模态表示对齐训练,让模型在不同条件组合下都能保持稳定。同时,模型通过统一 REPA 对齐目标,将生成音频的内部表示与聚合后的多模态条件对齐,提升语义一致性和控制鲁棒性。换句话说,ControlFoley 不是为某一个单点任务“特化”出来的模型,而是一个统一覆盖 TV2A、TC-V2A、AC-V2A 的多任务框架

在常规视频配音任务 TV2A 上,ControlFoley 在 VGGSound-Test、Kling-Audio-Eval、MovieGen-Audio-Bench 等多个 benchmark 上取得开源 SOTA 表现

结果对比显示,ControlFoley 在多个数据集上均取得更好的语义对齐、时间同步和声音质量表现。

下图展示了典型视频配音结果的频谱对比。以乐器演奏和体育运动两类典型场景为例,ControlFoley 生成的音频在动作发生的关键时刻能够对齐视频节奏,同时保留更完整的高频细节;相比之下,部分方法会出现声音事件错位、漏掉关键动作声音,或生成与画面不匹配的音频。直观来看,ControlFoley 不仅能“配上声音”,也更能把声音配准、配细。

对标商业闭源系统 Kling-Foley,ControlFoley 在关键体验指标上同样展现出竞争力。在语义对齐、时间同步和声音质量等关键体验指标上,ControlFoley 相比 Kling-Foley 展现出稳定优势;完整客观指标可见技术报告。

相关内容

聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
小米开源可控视频音效生成模...
IT之家 5 月 29 日消息,小米大模型应用团队今日发布 Con...
2026-06-01 00:41:13
全球首次单机降服万亿巨模D...
从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离...
2026-05-28 20:34:56
自变量开源 Wall-OS...
2026-05-28 16:19:28 作者:狼叫兽 自变量机器...
2026-05-28 20:29:33
中国AI大模型Token调...
每经记者|宋欣悦 每经编辑|高 涵 近日,《每日经济新闻》记者根...
2026-05-28 20:18:22

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...