对标GPT-4o!蚂蚁开源统一多模态大模型Ming-lite-omni,理解生成一体化
创始人
2025-05-27 22:48:45
0

智东西

作者 | 李水青

编辑 | 心缘

智东西5月27日杭州报道,今日,在蚂蚁技术开放日上,蚂蚁集团宣布开源理解与生成统一多模态大模型Ming-lite-omni。该模型支持将理解和生成模型合在一起调用,也可以单独完成理解和生成任务,带来原生全模态交互体验。

智东西与蚂蚁集团基础智能负责人西亭等相关负责人进行了面对面对话。西亭告诉智东西,新开源的Ming-lite-omni模型有几个值得关注的创新点:一是真正把生成和理解模型放到一个模型;二是真正意义上的全模态输入和输出,都支持音视频、图文多种形态;三是真正是以MoE为架构的模型,中间没有串其他东西,交互性较强。

据悉,团队希望这个模型能够接近GPT-4o像人一样去交互,但GPT-4o是闭源模型。所以团队给自己设定一个目标:希望推出一款非常接近GPT-4o的原生全模态模型,而且将彻底开源。

全球顶尖AI科学家、阿里集团副总裁许主洪在会上发表演讲,他认为,当下多模态大模型的一大演进趋势,正是用统一的框架做理解和生成。这一领域发展尚处于的初级阶段,需要实践验证。今日蚂蚁开源的Ming-lite-omni,正是这一领域的代表性实践。

▲许主洪在讲解统一多模态模型产业发展脉络

统一理解与生成的多模态大模型面临众多技术挑战。在全模态交互挑战方面,当下支持音、视、图、文全模态交互的公开单模型非常少见;在理解与生成统一方面,图像和语意的理解生成统一模型鲜有出现,且理解和生成效果难以平衡。

蚂蚁为什么选择在当下节点开源这样一款“大一统”模型?

西亭告诉智东西,团队从去年9-10月份开始就一直在尝试和探索这件事情,之所以今年把它开放出来,也是受业界开源举措启发想要回馈社区。越简洁的东西越美,很多做技术的人都希望有一个“大一统”的模型,Ming-lite-omni就是把多模态繁琐的过程用一个较简单的形式表达出来。就蚂蚁的AGI事业部的技术路线而言,最好的AGI就是最好的产品。用户选择一款模型的理由就是它的智能上限高。所以团队把追逐更好的智能能力作为目标,这也是推出Ming-lite-omni并开源的一个很大初衷。

截至目前,蚂蚁集团今年已开源了多款模型,包括Ling-lite-1.5语言大模型,推理模型Ring-lite-1.5、Ring-lite-linear,以及今天推出的多模态模型Ming-lite-omni。

其中,Ling-lite-1.5整体能力已达到同等规模(16.8B-A2.75B)模型的SOTA水平,整体能力超过Qwen3-4B;Ring-lite-1.5推理能力达到Qwen3-8B水平,AlME24/GPQA/LCB平均分接近Qwen3-30B-A3B;Ring-lite-linear采用混合线性注意力机制架构,有效降低计算复杂度和显存占用,突破长上下文推理效率瓶颈。

回顾蚂蚁通用语言模型Ling的探索过程,Ling-plus及Ling-lite(0220版本)采用轻量级分布式分析、异构硬件自适应训练策略、MoE架构优化,从而实现了同尺寸模型的SOTA(行业最佳)性能。发展到Ling-lite-1.5,其仅用2.75B激活计算,可对标10B内SOTA dense模型;再到近期开源的Ling-lite(0415版本),采用分层语料预训练策略跟需求驱动的执行优化体系,以更少的语料和更高的质量,性能超过同尺寸下SOTA模型(如Llama-3.1-8B、Qwen2.5-7B等),大幅提升了数学、代码等推理能力。

除了模型更新,蚂蚁集团在行业大模型方面也有新进展。旗下AI健康管家不久后将上线新版本。当下,虽然基模能力越来越强,但在医疗领域仍面临严肃性、专业性、复杂性和个性化多方面挑战。AI健康管家是其与卫健委合作开发的应用,通过高质量数据资源、专业标注团队等多方面优化模型,主打“AI就医助理”、“AI健康咨询”和“AI家庭医生顾问”三方面,和个人健康档案打通,充当健康助理角色。

结语:统一多模态,探索AGI能力上限

当下,AGI正飞速发展,一方面带来更多商业机会,另一方面也带来更多技术不确定性。2015年的5月27日,由于杭州市萧山区某地光纤被挖断导致支付宝大规模宕机,部分用户无法使用支付宝。527这一天,因此也被设定为蚂蚁的技术开放日,用以勉励蚂蚁技术人要永远保持对技术的敬畏和创新之心。

在527技术开放日公布一系列大模型新进展,体现了蚂蚁在AGI时代化挑战为机遇的决心。一方面,蚂蚁AGI团队在探索追求智能能力的上线,打造统一多模态的AGI产品;另一方面,其开源步伐紧锣密鼓,有望联合社区力量共同推进大模型产业发展,也将影响AI产业格局。

相关内容

【CSS】盒子模型内边距 ...
文章目录一、内边距1、概念2、内边距设置语法3、内边距设置效果二、...
2025-05-29 04:28:49
数据库存储与索引技术(二)...
上文讲到,传统单机数据库受制于底层存储技术及扩展瓶颈...
2025-05-29 03:38:16
未来已来:探秘嵌入式5G技...
  嵌入式系统是目前应用非常广泛的一种系统,它可以用...
2025-05-29 03:28:30
【零基础入门前端系列】—动...
【零基础入门前端系列】—动画和弹性盒模型(二十四&#...
2025-05-29 01:17:44
互联网大厂测试开发能力要求
  要成为一个优秀的中高级测试人才,从 宏观层面 应...
2025-05-29 00:20:21
联想大学生“青春有AI”教...
中国财富网讯 近日,联想集团积极响应国家产教融合战略指引,正式启动...
2025-05-28 22:15:20

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 A... 摘要:网易前高管创办(欢迎关注闺蜜财经) 撰文|蜜姐 这是@闺蜜财经的第1598篇原创 本周,北京...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...