蚂蚁开源全模态大模型Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro_linux资讯

蚂蚁开源全模态大模型Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro

创始人

2026-02-11 15:19:44

0次

2月11日，蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0。在多项公开基准测试中，该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出，部分指标超越Gemini 2.5 Pro。

上证报中国证券网讯（记者温婷）2月11日，蚂蚁集团开源发布全模态大模型Ming-Flash-Omni 2.0。在多项公开基准测试中，该模型在视觉语言理解、语音可控生成、图像生成与编辑等关键能力表现突出，部分指标超越Gemini 2.5 Pro。

Ming-Flash-Omni 2.0也是业界首个全场景音频统一生成模型，可在同一条音轨中同时生成语音、环境音效与音乐。用户只需用自然语言下指令，即可对音色、语速、语调、音量、情绪与方言等进行精细控制。

蚂蚁集团在全模态方向已持续投入多年，Ming-Omni系列迭代三个版本，此次将Ming-Flash-Omni 2.0开源，意味着其核心能力以“可复用底座”的形式对外释放，为端到端多模态应用开发提供统一能力入口。用户也可通过蚂蚁百灵官方平台Ling Studio在线体验与调用。

据百灵模型负责人周俊介绍，全模态技术的关键在于通过统一架构实现多模态能力的深度融合与高效调用。开源后，开发者可基于同一套框架复用视觉、语音与生成能力，显著降低多模型串联的复杂度与成本。未来，团队将持续优化视频时序理解、复杂图像编辑与长音频生成实时性，完善工具链与评测体系，推动全模态技术在实际业务中规模化落地。

Ming-Omni 关键能力模型语音性能统一集团 Gemini 蚂蚁蚂蚁集团 Omni 模态

上一篇：慕思2026新春年会圆满落幕：以“AI焕新智造非凡”开启智能时代新篇章

下一篇：AI淘金热变成AI恐慌潮！华尔街新共识：躲开一切可能被颠覆的公司

蚂蚁开源全模态大模型Ming-Flash-Omni 2.0 性能对标Gemini 2.5 Pro

相关内容

热门资讯