FineHARD团队 投稿
量子位 | 公众号 QbitAI
如何让CLIP模型更关注细粒度特征学习,避免“近视”?
360人工智能研究团队提出了,可以明显缓解CLIP的“视觉近视”问题。
让模型能更关注于正确的细节描述,而不是更全局但是错误的描述。
模型成功的关键在于高质量数据。
就在最近,冷大炜博士团队将这一“秘籍”开源:FineHARD高质量图文对齐数据集。该数据集主打两个核心特点:细粒度+难负样本。
FineHARD是FG-CLIP模型背后的高质量图文对齐数据集,以规模化与精细化为特色,包含1200万张图像及其对应的长、短描述文本,覆盖4000万个边界框,每个边界框均附带细粒度区域描述(Fine-Grained Regional Deion)。
此外,FineHARD创新性地引入了1000万组细粒度难负样本(Hard Fine-grained Negative Samples),这些经过算法筛选的干扰样本能够有效提升模型对相似目标的区分能力。
基于该数据集训练的FG-CLIP已被ICML25接收,它在各种下游任务中显著优于原始CLIP和其他最先进方法,包括细粒度理解、开放词汇对象检测、长短文本图文检索以及通用多模态基准测试等。
细粒度+难负样本
具体来看,FineHARD数据集主要包含以下三方面工作。
全局细粒度对齐:FineHARD数据集不仅包含了常规的图像“短文本”描述(平均长度约20个词),同时为了弥补短文本描述细节缺失的问题,FG-CLIP团队基于多模态LMM模型为数据集中的每张图像生成了包含场景背景、对象属性及空间关系等详细信息的“长文本”描述(平均长度 150个词+),显著提升了全局语义密度。
局部细粒度对齐:“长文本”描述主要从文本侧为细粒度对齐打好了数据基础,为了进一步从图像侧也提升细粒度能力,FG-CLIP团队为FineHARD数据集中的每张图像进行基于开放世界目标检测模型提取了图像中大部分目标实体的位置,并为每个目标区域匹配了对应的region描述。FineHARD数据集包含高达4000万个bounding box及其对应的区域级细粒度描述文本。
细粒度难负样本:在上述全局细粒度对齐和局部细粒度对齐的基础上,为了进一步提高模型对图文细节的对齐理解和区分能力,FG-CLIP团队基于细节属性扰动方法,利用LLM模型为FineHARD数据集构造并清洗出了1000万组细粒度难负样本。大规模难负样本数据是FineHARD数据集区别于已有数据的第三个重要特点。
FineHARD数据集以1200万张高质量图像为核心基底,每张图像均配备精准的语义描述文本。数据集包含4000万个边界框标注,每个边界框均附带区域级细粒度描述(Fine-Grained Regional Deion),并通过算法筛选整合了1000万组细粒度难负样本。在数据预处理阶段,团队采用分布式计算架构,依托160×910B算力的NPU集群,在7天内完成数据清洗、特征提取及多模态对齐等核心操作,实现了从原始图像到结构化数据的高效转化。
多模态描述生成机制
FineHARD的文本描述体系基于GRIT数据集进行深度优化。首先通过严格筛选保留1200万张代表性图像,随后引入幻觉信息较小的多模态大模型CogVLM2-19B,为每张图像生成包含场景背景、对象属性及空间关系的长描述文本。相较原始GRIT数据集的简短概括式描述(平均长度约20词),本数据集的文本描述平均扩展至150词以上,显著提升了语义密度与场景还原度。这种描述体系既保留了原始数据集的通用性,又通过精细化标注增强了语义表达能力。
边界框与语义描述的协同构建
基于生成的长描述文本,采用自然语言处理工具spaCy进行指代表达(如”红色汽车”、”左上角的瓶子”)的提取与解析。原始GRIT数据集虽提供基础边界框,但存在类别覆盖不全(如部分图像仅标注人)等问题。为此,FG-CLIP团队设计了双重增强策略:
细粒度描述补充:对基础边界框补充细粒度指代描述。
目标检测扩展:通过预训练的Yolo-World模型对图像与指代表达进行联合推理,生成额外边界框。采用非极大值抑制(NMS)技术过滤重叠区域,仅保留置信度>0.4的高质量预测结果。
最终构建出包含区域级语义描述的4000万边界框体系,实现视觉元素与语义信息的精准对齐。
细粒度负样本生成与质量验证
为提升模型对相似目标的判别能力,FG-CLIP团队开发了基于属性扰动的负样本生成方案。具体流程如下:
属性修改策略:在保持对象名称一致的前提下,通过开源大语言模型Llama-3.1-70B对正样本描述进行属性替换(如将”红色汽车”改为”蓝色汽车”),生成10个属性相似但语义不同的负样本;
文本规范化处理:移除特殊符号(分号、逗号、换行符等),确保描述格式统一性;
质量评估体系:对3000个样本进行人工复核,结果显示98.9%的样本符合质量标准,仅1.1%被判定为噪声——该误差率处于无监督生成方法的合理阈值范围内。
此类细微语义差异的负样本更贴近真实场景中物体外观相似但属性不同的复杂情况,使模型在视觉定位任务中具备更强的鲁棒性。
FineHARD数据集分析常见数据集对比
为了定量分析FineHARD数据集的特点,我们与一些业界常用的数据集,如Flickr30k,CC3M和COCO在图像,文本描述,目标bounding box和难负样本等四个维度进行了对比,如下图所示。
细粒度数据集对比
我们进一步将其与其他专门的细粒度数据集(如LVIS和V3Det)进行了对比。FineHARD通过CogVLM2-19B和YOLO-World生成的region描述中提取并汇总了类别标签,以构建数据集中所涵盖的对象类别信息。下表展示了不同数据集在图像数量、文本描述数量与由不同文本描述归纳出的独立类别标签数量的对比,注意因为差距悬殊,横纵坐标均为对数坐标:
为了进一步分析FineHARD数据集的样本多样性,我们随机采样了与V3Det相同图像规模(243,000张)的子集进行对比,在这个子集中,FineHARD包含了21k个独立类别标签,显著高于V3Det的13k个,表明FineHARD数据集在语义覆盖范围和多样性方面具有明显优势。此外,我们使用t-SNE降维方法对采样数据的类别标签进行可视化展示:
该图进一步验证了在相同图像规模下,FineHARD数据集呈现出更广泛的类别分布,说明其在视觉语义上的丰富性和更高的多样性。随着数据集扩展至1,200万张图像,类别标签和描述文本的多样性进一步显著提升。这种规模的增长不仅增强了模型对稀有类别的学习能力,也为细粒度视觉理解任务提供了更全面的数据支撑。这标志着FineHARD在构建大规模、高质量、高多样性视觉语言数据集方面迈出了重要一步。
可应用于具身智能、3D建模等领域
从技术应用前景看,FineHARD数据集将对多个前沿领域产生影响:
多模态大模型训练:通过海量图文-区域对齐数据的预训练,可显著提升模型的跨模态理解与生成能力,特别是对图像细节的理解与对齐;
具身智能系统开发:结合细粒度空间描述与动作语义,为机器人提供更精准的环境感知与操作指令解析能力,推动工业自动化向认知决策层面升级;
3D场景建模与数字孪生:区域级细粒度描述可作为语义特征点云的生成依据,为虚拟场景重建提供高精度语义锚点,加速AR/VR等沉浸式技术发展;
项目Github:https://github.com/360CVGroup/FG-CLIP
数据集地址:https://huggingface.co/datasets/qihoo360/FineHARD