AI模仿人类看漫画,视频大模型时序定位能力新SOTA
创始人
2024-11-23 12:50:51
0

NumPro团队 投稿

量子位 | 公众号 QbitAI

用看漫画的方式,大幅提升视频大模型时序定位能力!

方法名为 NumPro无需训练,通过 数字视觉提示就能增强。

就像漫画中用编号的画格引导读者按顺序理解故事,将视觉内容与清晰的时间线联系起来一样。

NumPro通过 在视频帧上添加独特的数字标识符,将视频时序定位转化为直观的“翻阅漫画”式过程,使Vid-LLMs能够轻松“读取”事件时间线,准确关联视觉内容与相应的时序信息。

实验中,NumPro显著提升了视频时序定位能力,在多个基准上超越此前SOTA,而且还能保持对模型通用视频理解能力影响较小。

这项工作由来自东南大学、马克斯·普朗克信息学研究所、腾讯微信团队、加州大学伯克利分校的研究人员共同完成。

NumPro方法核心创新

视频大语言模型 (Vid-LLMs)在视频内容理解问答对话方面已取得显著进展,但在精确的时序定位任务 (Video Temporal Grounding, VTG)上仍面临挑战。

传统方法在增强模型的VTG能力时,往往需要大量的重新训练或复杂的模型适配,灵活性和可迁移性受限。

NumPro是如何实现的呢?

无需训练设置(Training-Free)

在无训练设置下,NumPro直接为每个视频帧标记对应的帧号。

微调优化设置(Fine-tuning Setting)

为进一步提升性能,NumPro-FT在经过了NumPro增强数据集上对Vid-LLMs进行微调。

此过程将帧号与训练数据中的时间跨度对齐,将时序定位能力嵌入模型的学习表示中。

微调时,冻结视觉编码器,仅对视觉投影仪和大语言模型 (LLM)组件进行优化,并采用低秩适应 (LoRA)技术调整LLM,有效减少参数数量和训练开销。

为确保NumPro的有效性,研究团队从 字体大小、颜色和位置三个关键因素对其进行精心设计优化。

最终确定了字体大小为40、颜色为红色、位置在右下角的最优设计,该设计能最大程度发挥Vid-LLMs的OCR和视觉语言对齐能力,实现精准的视频时序定位。

实验成果显著

在标准VTG基准测试中,NumPro表现卓越。

在Moment Retrieval任务中,无需训练的NumPro使Vid-LLMs性能接近或超越以往最优水平。

而经过NumPro-FT微调后,LongVA-7B-DPO在Charades-STA和ActivityNet数据集上的多个指标上均大幅超越现有SOTA,展现出NumPro在提升模型时序定位能力方面的巨大潜力。

NumPro不仅在领先模型上效果显著,对多种Vid-LLMs也具有广泛的适用性。

应用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均带来了显著的性能提升。此外,在与微调结合时,NumPro-FT始终优于传统微调方法,尤其在较长视频数据集上表现出色。

将NumPro集成到通用视频问答任务 (如VideoInstruct基准测试)中,发现其对一般理解指标影响极小,在保持强大通用视频理解能力的同时,显著提升了视频时序定位能力。

论文连接:https://arxiv.org/pdf/2411.10332

代码仓库:https://github.com/yongliang-wu/NumPro

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、 周志华教授、智源研究院 王仲远院长都来量子位 MEET2025智能未来大会探讨行业破局之道了!

相关内容

魏牌V9X预售价37.18...
魏牌V9X正式开启预售,共推出3款车型,预售价37.18万-41....
2026-04-18 11:15:34
白天练AI,晚上“练队友”
羊城晚报记者 刘克洪 11日至12日,2026电竞粤超深圳站在深圳...
2026-04-13 13:53:33
统一VLA范式!港科大开源...
新智元报道 编辑:LRST 【新智元导读】当前具身智能的VLA(...
2026-04-13 13:51:15
MiniMax M2.7开...
4月13日消息,MiniMax M2.7 于今日正式开源。该公司宣...
2026-04-13 13:49:10
10000个爱因斯坦诞生?...
AI大神Karpathy的「autoresearch」爆火之后,物...
2026-04-13 13:45:14
中科闻歌冲刺港股:国家队A...
雷递网 雷建平 4月12日 北京中科闻歌科技股份有限公司(简称:“...
2026-04-13 02:56:56

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...