蚂蚁集团开源 Ming-flash-omni 2.0
创始人
2026-04-04 22:53:12
0

AIPress.com.cn报道

2 月 11 日,蚂蚁集团正式开源发布全模态大模型Ming-flash-omni 2.0。作为 Ming-Omni 系列的最新版本,该模型在视觉语言理解、语音可控生成、图像生成与编辑等核心能力上实现系统性升级,在多项公开基准测试中达到开源领先水平,部分指标超过 Gemini 2.5 Pro。

Ming-flash-omni 2.0 的更新重点之一在于音频生成能力。模型支持在同一音轨中同时生成语音、环境音效与音乐,并允许用户通过自然语言指令控制音色、语速、语调、音量、情绪和方言等参数。根据官方数据,模型在推理阶段实现 3.1Hz 的推理帧率,可生成分钟级音频内容。

在视觉能力方面,模型通过引入更大规模细粒度数据和难例训练策略,提升对复杂对象和长尾类别的识别能力。图像生成与编辑功能也进行了优化,支持光影调整、场景替换、人物姿态修改等操作,并强调在复杂或动态场景中的稳定性。

架构上,Ming-flash-omni 2.0 2.0 基于 Ling-2.0(MoE,100B-A6B)架构训练。官方表示,该版本在更大规模数据和系统化训练优化基础上,对多模态理解与生成能力进行了统一整合。

近年来,多模态大模型逐步向统一架构方向发展,但在实际应用中,模型往往难以同时兼顾通用性与单项能力表现。蚂蚁方面表示,Ming-omni 系列经过多代迭代,从构建统一多模态能力底座,到扩大规模与训练优化,再到 2.0 版本强化单项能力表现,逐步提升综合性能。

百灵模型负责人周俊表示,全模态技术的关键在于统一架构下的能力融合与调用效率。开源后,开发者可在同一框架下调用视觉、语音与生成能力,减少多模型串联带来的工程复杂度。

目前,Ming-flash-omni 2.0 的模型权重与推理代码已在 Hugging Face 等开源社区发布,用户也可通过蚂蚁百灵平台 Ling Studio 进行在线体验。

相关内容

Google 杀入、Pel...
Google 杀入、Peloton 踩坑:2026年5月,AI健身...
2026-05-25 04:40:50
安克创新:首款AI音频芯片...
大河财立方5月24日消息,安克创新(300866.SZ)发布投资者...
2026-05-25 04:38:17
宝妈的家务活能帮京东AI闯...
每经记者:王郁彪 每经编辑:许绍航 5月的宿迁室外气温虽不算太高,...
2026-05-24 21:50:31
“AI万能论”和“AI焦虑...
5月22日上午,2026年文化强国建设高峰论坛“人工智能驱动文化产...
2026-05-24 04:27:17
全国首个开源鸿蒙机器人操作...
快科技5月23日消息,日前,深开鸿重磅发布全国首个基于开源鸿蒙打造...
2026-05-24 04:15:38

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...