AIPress.com.cn报道
微软AI正式宣布推出其首个完全自研的图像生成模型 MAI-Image-1,并在全球知名的 LMArena 文生图排行榜上首秀即进入前十。这标志着微软正式摆脱对外部模型依赖,迈向 “自主生成式媒体引擎”时代。
MAI-Image-1 是微软继 MAI-Voice-1 与 MAI-1-preview 之后的又一自研模型,标志着微软AI正式将自有模型体系扩展至图像生成领域。
微软表示,该模型以“创作者导向(Creator-Oriented)”为核心设计理念,强调避免“模板化、风格崩塌”的输出问题,并在数据选择与评测中注重多样性、构图逻辑与真实光影表现。
模型主要亮点包括:
真实感光影处理:精确模拟环境反射、间接光与散射效果;
自然景观渲染能力:山川、城市、海岸等大场景表现突出;
极速生成体验:相比同量级大模型生成速度更快,支持连续交互与实时创作。
微软AI团队强调,该模型不仅追求图像质量,还特别优化了低延迟生成(low-latency inference),为未来在Copilot和Bing Image Creator 的落地提供技术保证。
截至2025 年10月13日,MAI-Image-1 已跻身前十名,超过部分老牌开源项目与中型商用模型。微软官方表示,LMArena 公测阶段主要用于收集社区反馈,并将在后续版本中进一步优化推理速度与安全防护机制。
“我们的目标不是盲目追求超大规模,而是打造一款可被创作者真正高频使用的图像模型。”—— Microsoft AI 团队声明
微软尚未公开MAI-Image-1 的架构细节、参数量或训练数据来源。但从其描述的性能特征推测,MAI-Image-1 可能采用了:
紧凑型Transformer + Diffusion 复合结构;
高效token-to-pixel 流水线优化;
多阶段风格校正与安全检测模块;
Prompt 重复下的风格多样性保持机制。
过去,微软的图像生成产品主要依托合作伙伴(如OpenAI 的 DALL·E 系列)。而MAI-Image-1 的推出,意味着微软AI正在重构自身的“生成式生态闭环”:
上层应用:Copilot、Bing、Designer、PowerPoint AI 插件;
底层模型:MAI 系列语音、视觉、语言统一框架;
反馈闭环:通过LMArena 收集交互数据反哺模型调优。
这使得微软在与OpenAI、Google DeepMind、Stability、Midjourney 等的竞争中,首次拥有了完整自研的多模态生产链。
分析人士认为,随着Copilot 全面植入Windows 11、Office 365 与 Edge 浏览器,MAI-Image-1 未来将成为数亿级用户的默认生成引擎。
编辑:Peace