微软发布Phi-3.5小语言模型,欲推动AI创新进一步发展
创始人
2024-08-27 16:45:26
0

微软最新发布的Phi-3.5系列AI模型,标志着小语言模型领域迎来又一波重大进展。该家族由三款模型构成:Phi-3.5-mini-instruct、Phi-3.5-Mixture of Experts-instruct以及Phi-3.5-vision-instruct,各个模型均提供特定功能,旨在提高AI技术在不同任务下的性能表现。此版本彰显出微软致力于推动AI技术发展,同时维持良好效率与可及性的探索与尝试。

Phi-3.5模型家族概述

Phi-3.5-mini-instruct模型包含38亿参数,针对快速推理任务进行了优化。该模型在代码生成以及逻辑/数学问题的解决等领域表现相当出色。尽管与其他模型比较其规模相对较小,但却在各种性能基准测试当中拥有可与Meta Llama 3.1以及Mistral 7B等大模型相媲美的性能。微软致力于使其成为一套既强大、又高效的模型,这也代表着软件巨头致力于打造一款能够在资源受限环境下部署的高质量AI工具。

家族中的第二位成员Phi-3.5-Moe-instruct是三套模型中体量最大的一位,拥有420亿参数。不过得益于其混合专家架构,在任何给定操作期间,只有66亿参数处于活动状态。这样的设计使该模型能够高效处理跨多种语言的复杂AI任务。MoE方法使得模型能够仅激活与给定任务关联度最高的“专家”子模型,从而提高性能与资源利用率。该模型在需要多语言能力的任务当中特别有效,甚至优于谷歌Gemini 1.5 Flash等由竞争对手打造的更大模型。

第三套模型Phi-3.5-vision-instruct则将该家族的功能扩展到了多模态领域。此模型拥有42亿参数,能够处理文本和图像,适合光学字符识别、图表分析乃至视频摘要等任务。该模型在处理复杂视觉任务时表现出的能力,与业界体量更大的多模态模型几乎不相上下。

更多Phi-3.5高级功能

Phi-3.5家族最令人印象深刻的功能之一,就是所有模型都可支持高达12.8万token的长上下文窗口。此功能允许模型处理和生成大量数据,因此适合用于处理长文档、复杂对话乃至涉及多媒体内容的实际应用。在这么长的输入序列中保持一致性以及对上下文的感知能力,已经成为众多现代AI应用程序的一项关键需求。

训练这些模型当然离不开庞大的算力资源。例如,Phi-3.5-mini-instruct模型就以10天为周期使用到512张H100 GPU在3.4万亿个token上进行了训练。Phi-3.5-MoE模型的训练范围更广,在23天之内在4.9万亿个token上进行了训练,且同样使用512张H100 GPU。最后,Phi-3.5-vision-instruct模型在6天之内在5000亿token上进行了训练,且使用到256张A100 GPU。这种立足高质量、推理密集型公开数据集进行了密集训练,也让Phi-3.5模型家族拥有了令人印象深刻的功能表现。

开源与可及性

为了履行公司的开源承诺,微软已经根据开源MIT许可证对外发布Phi-3.5模型家族。开发人员可以通过Hugging Face平台访问这些模型,将其下载、修改并集成到自己的项目当中,且不受商业使用的限制。这种开源方法有望激发出更广泛的采用和实验,特别是在那些需要高级AI功能的加持、但却不具备从头开始训练模型的必要资源的应用领域。

竞争格局与影响

微软为Phi-3.5家族定下的战略就是开发出更小、更高效的AI模型,尽可能使其在特定任务中带来超越更大模型的表现。这种对效率的关注带来了几大关键优势,包括减少算力要求、加快推理时间以及因能耗降低而实现的环境友好能力。这些优势的存在,使得Phi-3.5模型家族特别适合部署在资源相对有限的边缘计算场景以及大规模云环境当中。

此次发布中最值得注意的方面之一,则在于微软宣称这些模型在特定任务当中可以用过谷歌、Meta甚至是OpenAI等竞争对手发布的更大体量模型。如果这些说法在后续实际应用当中得到验证,那么很可能预示着AI格局将发生转变,即模型效率将变得与原始规模及参数数量同等重要。这种方法挑战了以往AI开发领域“越大越好”的固有观点,有望引领AI开发进入一个专注于可持续性和可及性的新时代。

Phi-3.5家族代表着微软在AI研发方面迈出的重要一步。通过专注于打造体量更小、效率更高、能够处理各种任务的模型,微软希望就当前市场对于功能强大且资源高效的AI解决方案的旺盛需求交出一份令人满意的答卷。

相关内容

魏牌V9X预售价37.18...
魏牌V9X正式开启预售,共推出3款车型,预售价37.18万-41....
2026-04-18 11:15:34
Cloudflare公测邮...
IT之家 4 月 18 日消息,Cloudflare 于 4 月 ...
2026-04-18 11:15:33
Google正式推出面向m...
谷歌近日正式发布了面向macOS平台的Gemini原生应用程序,用...
2026-04-18 11:13:16
AI赋能千行百业一线观察|...
编者按:新华网“AI赋能千行百业一线观察”系列融合报道,走进产业一...
2026-04-13 21:54:36
4月13日石大胜华涨5.1...
证券之星消息,4月13日石大胜华(603026)涨5.17%,收盘...
2026-04-13 21:49:25
从“全民养龙虾”到AI调用...
近期,一则数据引发全球科技界关注:根据OpenRouter最新数据...
2026-04-13 21:42:20

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...