对标GPT-4o!蚂蚁开源统一多模态大模型Ming-lite-omni,理解生成一体化
创始人
2025-05-27 22:48:45
0

智东西

作者 | 李水青

编辑 | 心缘

智东西5月27日杭州报道,今日,在蚂蚁技术开放日上,蚂蚁集团宣布开源理解与生成统一多模态大模型Ming-lite-omni。该模型支持将理解和生成模型合在一起调用,也可以单独完成理解和生成任务,带来原生全模态交互体验。

智东西与蚂蚁集团基础智能负责人西亭等相关负责人进行了面对面对话。西亭告诉智东西,新开源的Ming-lite-omni模型有几个值得关注的创新点:一是真正把生成和理解模型放到一个模型;二是真正意义上的全模态输入和输出,都支持音视频、图文多种形态;三是真正是以MoE为架构的模型,中间没有串其他东西,交互性较强。

据悉,团队希望这个模型能够接近GPT-4o像人一样去交互,但GPT-4o是闭源模型。所以团队给自己设定一个目标:希望推出一款非常接近GPT-4o的原生全模态模型,而且将彻底开源。

全球顶尖AI科学家、阿里集团副总裁许主洪在会上发表演讲,他认为,当下多模态大模型的一大演进趋势,正是用统一的框架做理解和生成。这一领域发展尚处于的初级阶段,需要实践验证。今日蚂蚁开源的Ming-lite-omni,正是这一领域的代表性实践。

▲许主洪在讲解统一多模态模型产业发展脉络

统一理解与生成的多模态大模型面临众多技术挑战。在全模态交互挑战方面,当下支持音、视、图、文全模态交互的公开单模型非常少见;在理解与生成统一方面,图像和语意的理解生成统一模型鲜有出现,且理解和生成效果难以平衡。

蚂蚁为什么选择在当下节点开源这样一款“大一统”模型?

西亭告诉智东西,团队从去年9-10月份开始就一直在尝试和探索这件事情,之所以今年把它开放出来,也是受业界开源举措启发想要回馈社区。越简洁的东西越美,很多做技术的人都希望有一个“大一统”的模型,Ming-lite-omni就是把多模态繁琐的过程用一个较简单的形式表达出来。就蚂蚁的AGI事业部的技术路线而言,最好的AGI就是最好的产品。用户选择一款模型的理由就是它的智能上限高。所以团队把追逐更好的智能能力作为目标,这也是推出Ming-lite-omni并开源的一个很大初衷。

截至目前,蚂蚁集团今年已开源了多款模型,包括Ling-lite-1.5语言大模型,推理模型Ring-lite-1.5、Ring-lite-linear,以及今天推出的多模态模型Ming-lite-omni。

其中,Ling-lite-1.5整体能力已达到同等规模(16.8B-A2.75B)模型的SOTA水平,整体能力超过Qwen3-4B;Ring-lite-1.5推理能力达到Qwen3-8B水平,AlME24/GPQA/LCB平均分接近Qwen3-30B-A3B;Ring-lite-linear采用混合线性注意力机制架构,有效降低计算复杂度和显存占用,突破长上下文推理效率瓶颈。

回顾蚂蚁通用语言模型Ling的探索过程,Ling-plus及Ling-lite(0220版本)采用轻量级分布式分析、异构硬件自适应训练策略、MoE架构优化,从而实现了同尺寸模型的SOTA(行业最佳)性能。发展到Ling-lite-1.5,其仅用2.75B激活计算,可对标10B内SOTA dense模型;再到近期开源的Ling-lite(0415版本),采用分层语料预训练策略跟需求驱动的执行优化体系,以更少的语料和更高的质量,性能超过同尺寸下SOTA模型(如Llama-3.1-8B、Qwen2.5-7B等),大幅提升了数学、代码等推理能力。

除了模型更新,蚂蚁集团在行业大模型方面也有新进展。旗下AI健康管家不久后将上线新版本。当下,虽然基模能力越来越强,但在医疗领域仍面临严肃性、专业性、复杂性和个性化多方面挑战。AI健康管家是其与卫健委合作开发的应用,通过高质量数据资源、专业标注团队等多方面优化模型,主打“AI就医助理”、“AI健康咨询”和“AI家庭医生顾问”三方面,和个人健康档案打通,充当健康助理角色。

结语:统一多模态,探索AGI能力上限

当下,AGI正飞速发展,一方面带来更多商业机会,另一方面也带来更多技术不确定性。2015年的5月27日,由于杭州市萧山区某地光纤被挖断导致支付宝大规模宕机,部分用户无法使用支付宝。527这一天,因此也被设定为蚂蚁的技术开放日,用以勉励蚂蚁技术人要永远保持对技术的敬畏和创新之心。

在527技术开放日公布一系列大模型新进展,体现了蚂蚁在AGI时代化挑战为机遇的决心。一方面,蚂蚁AGI团队在探索追求智能能力的上线,打造统一多模态的AGI产品;另一方面,其开源步伐紧锣密鼓,有望联合社区力量共同推进大模型产业发展,也将影响AI产业格局。

相关内容

西方资本市场AI概念股缘何...
近期,不少国家人工智能(AI)概念股频繁上演大涨大跌行情。美国科技...
2026-06-26 14:33:47
AI正在重塑千行百业
原标题:AI正在重塑千行百业 在人工智能(AI)高速发展的背景下,...
2026-06-26 14:33:30
智谱开源GLM 5.2,成...
截至9:57,成长100(980080)跌2.95%,权重股中际旭...
2026-06-26 14:30:51
2026 AI硬件元年来袭...
当左手智能体思考决策,右手机器人落地执行,一轮轮技术革新不断改写工...
2026-06-26 07:58:10
下一代数据库技术展现大幅减...
钛媒体App 6月25日消息,为破解人工智能(AI)智能体常见的“...
2026-06-25 09:29:24
AI全球治理,中国要成为规...
人工智能治理水平不仅关乎一国数字主权、社会稳定与产业繁荣,更攸关全...
2026-06-25 09:28:07

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...