AI模仿人类看漫画,视频大模型时序定位能力新SOTA
创始人
2024-11-23 12:50:51
0

NumPro团队 投稿

量子位 | 公众号 QbitAI

用看漫画的方式,大幅提升视频大模型时序定位能力!

方法名为 NumPro无需训练,通过 数字视觉提示就能增强。

就像漫画中用编号的画格引导读者按顺序理解故事,将视觉内容与清晰的时间线联系起来一样。

NumPro通过 在视频帧上添加独特的数字标识符,将视频时序定位转化为直观的“翻阅漫画”式过程,使Vid-LLMs能够轻松“读取”事件时间线,准确关联视觉内容与相应的时序信息。

实验中,NumPro显著提升了视频时序定位能力,在多个基准上超越此前SOTA,而且还能保持对模型通用视频理解能力影响较小。

这项工作由来自东南大学、马克斯·普朗克信息学研究所、腾讯微信团队、加州大学伯克利分校的研究人员共同完成。

NumPro方法核心创新

视频大语言模型 (Vid-LLMs)在视频内容理解问答对话方面已取得显著进展,但在精确的时序定位任务 (Video Temporal Grounding, VTG)上仍面临挑战。

传统方法在增强模型的VTG能力时,往往需要大量的重新训练或复杂的模型适配,灵活性和可迁移性受限。

NumPro是如何实现的呢?

无需训练设置(Training-Free)

在无训练设置下,NumPro直接为每个视频帧标记对应的帧号。

微调优化设置(Fine-tuning Setting)

为进一步提升性能,NumPro-FT在经过了NumPro增强数据集上对Vid-LLMs进行微调。

此过程将帧号与训练数据中的时间跨度对齐,将时序定位能力嵌入模型的学习表示中。

微调时,冻结视觉编码器,仅对视觉投影仪和大语言模型 (LLM)组件进行优化,并采用低秩适应 (LoRA)技术调整LLM,有效减少参数数量和训练开销。

为确保NumPro的有效性,研究团队从 字体大小、颜色和位置三个关键因素对其进行精心设计优化。

最终确定了字体大小为40、颜色为红色、位置在右下角的最优设计,该设计能最大程度发挥Vid-LLMs的OCR和视觉语言对齐能力,实现精准的视频时序定位。

实验成果显著

在标准VTG基准测试中,NumPro表现卓越。

在Moment Retrieval任务中,无需训练的NumPro使Vid-LLMs性能接近或超越以往最优水平。

而经过NumPro-FT微调后,LongVA-7B-DPO在Charades-STA和ActivityNet数据集上的多个指标上均大幅超越现有SOTA,展现出NumPro在提升模型时序定位能力方面的巨大潜力。

NumPro不仅在领先模型上效果显著,对多种Vid-LLMs也具有广泛的适用性。

应用于不同模型如LLaVA-Video-7B、LLaVA-OneVision-7B和Qwen2-VL-72B等,均带来了显著的性能提升。此外,在与微调结合时,NumPro-FT始终优于传统微调方法,尤其在较长视频数据集上表现出色。

将NumPro集成到通用视频问答任务 (如VideoInstruct基准测试)中,发现其对一般理解指标影响极小,在保持强大通用视频理解能力的同时,显著提升了视频时序定位能力。

论文连接:https://arxiv.org/pdf/2411.10332

代码仓库:https://github.com/yongliang-wu/NumPro

定档12月11日

「MEET2025智能未来大会」开启报名

李开复博士、 周志华教授、智源研究院 王仲远院长都来量子位 MEET2025智能未来大会探讨行业破局之道了!

相关内容

AI“读心术”更进一步:“...
科技日报北京11月7日电(记者张佳欣)人工智能(AI)“读心术”可...
2025-11-08 10:14:59
明查|国外展会出现悬浮飞行...
近日,有网传说法称,国外展会中出现了悬浮飞行鞋,然而相关视频画面实...
2025-11-08 09:16:24
AGI新技术路线:下一代稀...
作者 | 超对称技术 审校 | 赵赵 超对称技术公司在新版基座模型...
2025-11-08 06:43:20
打破 AI 辅助开发碎片化...
作者 | 付永生,阿里巴巴 / 高级技术专家 审核|罗燕珊 策...
2025-11-08 06:17:05
AI一线大佬:“人类水平”...
据媒体周五报道,多位AI领域的奠基人物表示,AI系统在某些领域已经...
2025-11-08 06:16:54
Canva全新设计模型有望...
Canva在周四的秋季产品发布会上推出了一系列全新的AI产品和功能...
2025-10-31 23:15:42

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...