今年最被低估的AI模型之一,重现李小龙功夫音
创始人
2024-12-24 22:42:41
0

AI好好用报道

编辑:Sia

音频视频的同步生成,是时候开卷了~

承认吧,虽然谷歌 Veo2 在视频生成上完虐了 Sora,但生成的还是个默片。

没声音的 AI 视频,说白了就是个半成品。

看看这组数字:

谷歌开放的大规模音频数据集 AudioSet 显示,82% 以上的视频都有人声或音乐;

去年抖音上传的 100 多亿条视频里,差不多八成都配了背景音乐。

号称今年华语最佳电影《好东西》最封神的一场戏,正好也与声音有关。

在声效蒙太奇下,日常家务也有山河之声。

最近火爆全网的 The Heist 也是个好例子。

来自 x @jasonzada

虽然每个画面都是用 Google Veo 2 靠文字生成的,但你猜怎么着?

作者最费劲的活儿反而是后期音效 ,全靠手动完成。

作者吐槽,最为致命

看来大家说的没错啊,视听同步生成还真是 AIGC 领域的下一个「硬骨头」!但好消息是,战斗已经打响了。

近期,伊利诺伊大学和索尼的联合团队搞出了一个配音工具 MMAudio——上传一段视频,不需要人工手动,系统可以自动生成合适的音频,效果很不错。

一个 8 秒的高质量音频片段仅需 1.23 秒!

工具链接:

https://replicate.com/zsxkib/mmaudio

官方 Demo 先走一波:

Videos from Sora

Videos from Veo 2

MMAudio 专注于模拟真实世界的各种声音,主要分两大类:环境音效和动作音效。

环境音效指的是场景中的背景声音,比如下雨声、河流声、风吹树叶的沙沙声、鸟叫声等自然环境的声音。

这是大导演库布里克的电影《闪灵》中的一个场景,原来只有背景音乐,没有音效。

体验一下 MMAudio 想象出来的效果。

来自 X @cocktailpeanut

灾难现场的模拟。

来自X @blizaine

动作音效则是视频中可见事件产生的声音,例如物体碰撞的声音、运动器材的声音(如网球拍击球)、动物的叫声(如狗叫)等。

MMAudio 可以重现李小龙功夫音,难得的是,双节棍舞动的声音也有卡点。

来自x @cocktailpeanut

就连一段苹果发布会的视频也能整出动静。你别说,挺合理,同样卡点准确!

我们也试了一把。

这是一段旅行拍摄的山鹌鹑,因为距离很远,原视频只有杂音。

上传到 MMAudio 、输入提示词,结果很理想。

不仅没了原来的杂音,还添加了动物的声音,更适合发圈了:

提示词:A covey of quail

上传一段法国小哥卖煎饼果子的视频,听听音效怎么样?

MMAudio 就像一个专业拟音师,通过生成与视频画面在语义和时间上都同步的自然声效,让视频内容更真实生动。

虽然它的主要目标不是生成音乐和人声,但研究表明,多模态联合训练并未影响其在单模态任务上的表现。

换句话说,它也能生成背景音乐甚至人声,虽然不是专业的。

官方给出的demo之一,就是给视频配上印度风格的BGM。

确实也有网友用 MMAudio 生出了背景音乐。

prompt: Christmas snow holiday music Santa Claus Festive

话又说回来,有没有给视频一键生成背景音乐的工具呢?你别说,还真有!而且,免费!

且听下回分解。

以后我们会带来更多好玩的AI评测,也欢迎大家进群交流。

相关内容

聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
小米开源可控视频音效生成模...
IT之家 5 月 29 日消息,小米大模型应用团队今日发布 Con...
2026-06-01 00:41:13
全球首次单机降服万亿巨模D...
从数学、代码、复杂推理,到多轮工具调用,大模型的很多能力的提升都离...
2026-05-28 20:34:56
自变量开源 Wall-OS...
2026-05-28 16:19:28 作者:狼叫兽 自变量机器...
2026-05-28 20:29:33
中国AI大模型Token调...
每经记者|宋欣悦 每经编辑|高 涵 近日,《每日经济新闻》记者根...
2026-05-28 20:18:22

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...