AI模仿人类看漫画,视频大模型时序定位能力新SOTA
创始人
2024-11-23 12:50:51
0

NumPro团队 投稿

量子位 | 公众号 QbitAI

用看漫画的方式,大幅提升视频大模型时序定位能力!

方法名为 NumPro无需训练,通过 数字视觉提示就能增强。

就像漫画中用编号的画格引导读者按顺序理解故事,将视觉内容与清晰的时间线联系起来一样。

NumPro通过 在视频帧上添加独特的数字标识符,将视频时序定位转化为直观的“翻阅漫画”式过程,使Vid-LLMs能够轻松“读取”事件时间线,准确关联视觉内容与相应的时序信息。

实验中,NumPro显著提升了视频时序定位能力,在多个基准上超越此前SOTA,而且还能保持对模型通用视频理解能力影响较小。

这项工作由来自东南大学、马克斯·普朗克信息学研究所、腾讯微信团队、加州大学伯克利分校的研究人员共同完成。

NumPro方法核心创新

视频大语言模型 (Vid-LLMs)在视频内容理解问答对话方面已取得显著进展,但在精确的时序定位任务 (Video Temporal Grounding, VTG)上仍面临挑战。

传统方法在增强模型的VTG能力时,往往需要大量的重新训练或复杂的模型适配,灵活性和可迁移性受限。

NumPro是如何实现的呢?

无需训练设置(Training-Free)

在无训练设置下,NumPro直接为每个视频帧标记对应的帧号。

微调优化设置(Fine-tuning Setting)

为进一步提升性能,NumPro-FT在经过了NumPro增强数据集上对Vid-LLMs进行微调。

此过程将帧号与训练数据中的时间跨度对齐,将时序定位能力嵌入模型的学习表示中。

微调时,冻结视觉编码器,仅对视觉投影仪和大语言模型 (LLM)组件进行优化,并采用低秩适应 (LoRA)技术调整LLM,有效减少参数数量和训练开销。

为确保NumPro的有效性,研究团队从 字体大小、颜色和位置三个关键因素对其进行精心设计优化。

最终确定了字体大小为40、颜色为红色、位置在右下角的最优设计,该设计能最大程度发挥Vid-LLMs的OCR和视觉语言对齐能力,实现精准的视频时序定位。

实验成果显著

在标准VTG基准测试中,NumPro表现卓越。

在Moment Retrieval任务中,无需训练的NumPro使Vid-LLMs性能接近或超越以往最优水平。

而经过NumPro-FT微调后,LongVA-7B-DPO在Charades-STA和ActivityNet数据集上的多个指标上均大幅超越现有SOTA,展现出NumPro在提升模型时序定位能力方面的巨大潜力。

NumPro不仅在领先模型上效果显著,对多种Vid-LLMs也具有广泛的适用性。

应用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均带来了显著的性能提升。此外,在与微调结合时,NumPro-FT始终优于传统微调方法,尤其在较长视频数据集上表现出色。

将NumPro集成到通用视频问答任务 (如VideoInstruct基准测试)中,发现其对一般理解指标影响极小,在保持强大通用视频理解能力的同时,显著提升了视频时序定位能力。

论文连接:https://arxiv.org/pdf/2411.10332

代码仓库:https://github.com/yongliang-wu/NumPro

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、 周志华教授、智源研究院 王仲远院长都来量子位 MEET2025智能未来大会探讨行业破局之道了!

相关内容

AI语音助手Maya,完全...
2025-03-14 18:41:15
新点软件:基于华为等多家开...
金融界3月14日消息,有投资者在互动平台向新点软件提问:你好!请问...
2025-03-14 17:12:09
原创 ...
风向彻底变了——AI应用的时代正式到来! 2024年,网络推广做的...
2025-03-14 14:42:42
清华率先开源AI制药智能体...
LG 衡宇 发自 凹非寺 量子位 | 公众号 QbitAI AI智...
2025-03-14 08:40:41
AI狂飙中更需人文教育成为...
这段时间,人工智能持续带给人们震撼,当AI已经可以写出像模像样的公...
2025-03-14 08:13:26
AI产业热潮不减
【深圳商报讯】(首席记者 谢惠茜)虽然算力以及人工智能板块迎来回调...
2025-03-14 08:13:13

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...
2024年度中国银行业发展报告... 21世纪经济报道 记者李愿 北京报道 10月19日,中国银行业协会在2024金融街论坛年会·金融街之...