微软发布能自主决定思考的Phi-4-Reasoning-Vision-15B开源模型
创始人
2026-03-05 09:20:57
0

IT之家 3 月 5 日消息,据微软官方开发者社区博客今日消息,微软发布了一款 Phi-4-Reasoning-Vision-15B 模型,这是一款视觉推理模型。

它结合了高分辨率视觉感知与选择性、任务感知的推理,使其成为 Phi-4 系列中首个同时实现“看得清楚”和“想得深入”的小语言模型(SLM)

传统的视觉模型仅执行被动的感知 —— 识别图像中“有什么”。Phi-4-Reasoning-Vision-15B 更进一步,执行结构化、多步骤的推理:理解图像中的视觉结构,将其与文本上下文连接,并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。

该模型最关键的设计特征是其混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换:

  • 当需要深度推理时(例如数学问题、逻辑分析)→ 启用多步推理链
  • 当快速感知足够时(例如,OCR、元素定位)→ 直接输出以降低延迟

该模型最重要的应用领域之一,就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后,可输出目标 UI 元素的标准化边界框坐标,其他智能体模型可以执行点击、滚动和其他交互。

以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比:

▲ 非推理模式

▲ 推理模式

IT之家附开源地址如下:

相关内容

AI赋能教学!汝河路小学教...
大象新闻记者 李书恒 通讯员 李先 / 文图 为提升教师信息技术应...
2026-03-05 09:50:17
微软发布能自主决定思考的P...
IT之家 3 月 5 日消息,据微软官方开发者社区博客今日消息,微...
2026-03-05 09:20:57
天风证券:AI赛道持续推进...
每经AI快讯,天风证券研报表示,AI方面,大模型迭代提速,AI硬件...
2026-03-05 08:49:54
Meta计划将自研芯片延伸...
Meta计划开发定制芯片来训练其人工智能模型。 3月4日周三,Me...
2026-03-05 08:49:42
高盛:中东局势升温叠加AI...
高盛股票策略师在最新报告中表示,随着中东紧张局势升温、投资者重新评...
2026-03-05 06:20:30
AI 攻占 MWC
AIX财经(AIXcaijing)原创 见习作者 | 雷晶 编辑 ...
2026-03-05 06:19:03

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...