AI模仿人类看漫画,视频大模型时序定位能力新SOTA
创始人
2024-11-23 12:50:51
0

NumPro团队 投稿

量子位 | 公众号 QbitAI

用看漫画的方式,大幅提升视频大模型时序定位能力!

方法名为 NumPro无需训练,通过 数字视觉提示就能增强。

就像漫画中用编号的画格引导读者按顺序理解故事,将视觉内容与清晰的时间线联系起来一样。

NumPro通过 在视频帧上添加独特的数字标识符,将视频时序定位转化为直观的“翻阅漫画”式过程,使Vid-LLMs能够轻松“读取”事件时间线,准确关联视觉内容与相应的时序信息。

实验中,NumPro显著提升了视频时序定位能力,在多个基准上超越此前SOTA,而且还能保持对模型通用视频理解能力影响较小。

这项工作由来自东南大学、马克斯·普朗克信息学研究所、腾讯微信团队、加州大学伯克利分校的研究人员共同完成。

NumPro方法核心创新

视频大语言模型 (Vid-LLMs)在视频内容理解问答对话方面已取得显著进展,但在精确的时序定位任务 (Video Temporal Grounding, VTG)上仍面临挑战。

传统方法在增强模型的VTG能力时,往往需要大量的重新训练或复杂的模型适配,灵活性和可迁移性受限。

NumPro是如何实现的呢?

无需训练设置(Training-Free)

在无训练设置下,NumPro直接为每个视频帧标记对应的帧号。

微调优化设置(Fine-tuning Setting)

为进一步提升性能,NumPro-FT在经过了NumPro增强数据集上对Vid-LLMs进行微调。

此过程将帧号与训练数据中的时间跨度对齐,将时序定位能力嵌入模型的学习表示中。

微调时,冻结视觉编码器,仅对视觉投影仪和大语言模型 (LLM)组件进行优化,并采用低秩适应 (LoRA)技术调整LLM,有效减少参数数量和训练开销。

为确保NumPro的有效性,研究团队从 字体大小、颜色和位置三个关键因素对其进行精心设计优化。

最终确定了字体大小为40、颜色为红色、位置在右下角的最优设计,该设计能最大程度发挥Vid-LLMs的OCR和视觉语言对齐能力,实现精准的视频时序定位。

实验成果显著

在标准VTG基准测试中,NumPro表现卓越。

在Moment Retrieval任务中,无需训练的NumPro使Vid-LLMs性能接近或超越以往最优水平。

而经过NumPro-FT微调后,LongVA-7B-DPO在Charades-STA和ActivityNet数据集上的多个指标上均大幅超越现有SOTA,展现出NumPro在提升模型时序定位能力方面的巨大潜力。

NumPro不仅在领先模型上效果显著,对多种Vid-LLMs也具有广泛的适用性。

应用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均带来了显著的性能提升。此外,在与微调结合时,NumPro-FT始终优于传统微调方法,尤其在较长视频数据集上表现出色。

将NumPro集成到通用视频问答任务 (如VideoInstruct基准测试)中,发现其对一般理解指标影响极小,在保持强大通用视频理解能力的同时,显著提升了视频时序定位能力。

论文连接:https://arxiv.org/pdf/2411.10332

代码仓库:https://github.com/yongliang-wu/NumPro

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、 周志华教授、智源研究院 王仲远院长都来量子位 MEET2025智能未来大会探讨行业破局之道了!

相关内容

【一周连连看】推动大模型从...
Hi,假期快乐。 本周,你将看到: 1、AI暑期营火了 2、硅谷,...
2026-06-21 20:19:17
CBVI:2026 中国品...
CBVI:2026 中国品牌AI可见度指数 China Brand...
2026-06-21 19:12:58
AI 知识付费“出海”:一...
文 | wiwi AI 浪潮里,最先赚到钱的人,未必是最懂 AI...
2026-06-21 14:04:50
阿里合伙人调整:AI科学家...
阿里巴巴(HK09988,股价104.9港元,市值2.01万亿港元...
2026-06-21 12:06:30
原创 ...
目前 iOS 微信又上线了新功能:小微。 我们进入微信主界面,之前...
2026-06-20 18:26:20
聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...