IT时报记者 郝俊慧
9月13日,国内开源大模型厂商元象发布最新MoE开源大模型——XVERSE-MoE-A36B,该模型总参数255B,激活参数36B,能达到100B模型的性能“跨级”跃升,同时训练时间减少30%,推理性能提升100%。
从数据上看,XVERSE-MoE-A36B是截至目前国内最大的MoE开源模型。此前,这一记录的保持者是阿里云今年6月7日发布的开源模型Qwen2-72B。
国外主流的开源AI模型则被认为是Meta的Llama 3.1,发布于今年7月24日,参数量是405B。
MoE(Mixture of Experts)是业界最前沿的混合专家模型架构,它可以将多个细分领域的专家模型组合成一个超级模型,打破了传统尺度定律(Scaling Law)的局限,可在扩大模型规模时,不显著增加训练和推理的计算成本,并保持模型性能最大化。
目前,国外的谷歌Gemini-1.5、OpenAIGPT-4、马斯克旗下xAI公司的Grok,国内的腾讯混元、通义千问等大模型都使用了 MoE。
MoE是目前最前沿的模型框架,不同公司还在这一技术路线上同步摸索。
据元象透露,XVERSE-MoE-A36B采用了4D拓扑架构,优化了计算节点之间的通信路径,提高了整体计算效率,平衡了通信、显存和计算资源的分配。同时,“多维度的通信与计算重叠”机制在参数通信的同时,最大比例并行地执行计算任务,从而减少了通信等待时间。
大模型旋风席卷全球之后,开源和闭源之争从未停止。元象是坚定的开源派。
2023年11月,元象率先开源了XVERSE-65B,是当时中国最大参数的开源大模型。XVERSE-65B底座模型是有元象全自研,在2.6万亿Tokens的高质量数据上从头训练,上下文窗口扩展至16K,支持中、英、俄、法等40多种语言。
50B~60B参数是大模型展示能力的一道门槛,业内基本形成的共识是,只有到达这个参数量级,才有可能出现“智能涌现”。XVERSE-65B免费开源后,为国内人工智能开发者们提供了低成本使用基座大模型的可能。
2024年1月,元象又开源全球最长上下文窗口大模型,支持输入25万汉字,让大模型应用一举进入“长文本时代”。
此次发布的XVERSE-MoE-A36B,由于采用MoE架构,可以实现100B模型的性能,实际合成参数255B,同样全部开源,而且无条件免费商用,中小企业、研究者和开发者可以按需选择。
元象自己已经打了一个不错的“版”。
基于MoE模型自主研发的AI角色扮演与互动网文的App Saylo,不仅为用户打造了一个高度个性化的聊天伴侣,用户也可以根据自己的喜好选择或自定义角色的外观、性格和背景故事,可以让自己的AI角色玩一场“线上剧本杀”。
自从大模型应用逐渐普及之后,AI聊天工具不少,Saylo成功的背后正是MoE。元象在通用预训练基础上,使用海量剧本数据“继续预训练”(Continue Pre-training),与传统SFT(监督微调)或RLHF(基于人类反馈的强化学习)不同,采用了大规模语料知识注入,让模型既保持了强大的通用语言理解能力,又大幅提升“剧本”这一特定应用领域的表现。
如今,下载量在中国台湾和香港地区娱乐榜分别位列第一和第三。
元象 XVERSE 于 2021 年初在深圳成立,是国内领先的 AI 与 3D 技术服务公司,致力于打造 AI 驱动的 3D 内容生产与消费一站式平台,愿景为“定义你的世界”。
元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。元象累计融资金额超过 2 亿美元,投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。