元象发布国内最大MoE开源模型 “全家桶”免费向全球开放

创始人

2024-09-13 19:51:52

0次

IT时报记者郝俊慧

9月13日，国内开源大模型厂商元象发布最新MoE开源大模型——XVERSE-MoE-A36B，该模型总参数255B，激活参数36B，能达到100B模型的性能“跨级”跃升，同时训练时间减少30%，推理性能提升100%。

从数据上看，XVERSE-MoE-A36B是截至目前国内最大的MoE开源模型。此前，这一记录的保持者是阿里云今年6月7日发布的开源模型Qwen2-72B。

国外主流的开源AI模型则被认为是Meta的Llama 3.1，发布于今年7月24日，参数量是405B。

MoE架构上多种创新

MoE（Mixture of Experts）是业界最前沿的混合专家模型架构，它可以将多个细分领域的专家模型组合成一个超级模型，打破了传统尺度定律（Scaling Law）的局限，可在扩大模型规模时，不显著增加训练和推理的计算成本，并保持模型性能最大化。

目前，国外的谷歌Gemini-1.5、OpenAIGPT-4、马斯克旗下xAI公司的Grok，国内的腾讯混元、通义千问等大模型都使用了 MoE。

MoE是目前最前沿的模型框架，不同公司还在这一技术路线上同步摸索。

据元象透露，XVERSE-MoE-A36B采用了4D拓扑架构，优化了计算节点之间的通信路径，提高了整体计算效率，平衡了通信、显存和计算资源的分配。同时，“多维度的通信与计算重叠”机制在参数通信的同时，最大比例并行地执行计算任务，从而减少了通信等待时间。

坚持开源路线

大模型旋风席卷全球之后，开源和闭源之争从未停止。元象是坚定的开源派。

2023年11月，元象率先开源了XVERSE-65B，是当时中国最大参数的开源大模型。XVERSE-65B底座模型是有元象全自研，在2.6万亿Tokens的高质量数据上从头训练，上下文窗口扩展至16K，支持中、英、俄、法等40多种语言。

50B~60B参数是大模型展示能力的一道门槛，业内基本形成的共识是，只有到达这个参数量级，才有可能出现“智能涌现”。XVERSE-65B免费开源后，为国内人工智能开发者们提供了低成本使用基座大模型的可能。

2024年1月，元象又开源全球最长上下文窗口大模型，支持输入25万汉字，让大模型应用一举进入“长文本时代”。

此次发布的XVERSE-MoE-A36B，由于采用MoE架构，可以实现100B模型的性能，实际合成参数255B，同样全部开源，而且无条件免费商用，中小企业、研究者和开发者可以按需选择。

自研AI“剧本杀”火了

元象自己已经打了一个不错的“版”。

基于MoE模型自主研发的AI角色扮演与互动网文的App Saylo，不仅为用户打造了一个高度个性化的聊天伴侣，用户也可以根据自己的喜好选择或自定义角色的外观、性格和背景故事，可以让自己的AI角色玩一场“线上剧本杀”。

自从大模型应用逐渐普及之后，AI聊天工具不少，Saylo成功的背后正是MoE。元象在通用预训练基础上，使用海量剧本数据“继续预训练”（Continue Pre-training），与传统SFT（监督微调）或RLHF（基于人类反馈的强化学习）不同，采用了大规模语料知识注入，让模型既保持了强大的通用语言理解能力，又大幅提升“剧本”这一特定应用领域的表现。

如今，下载量在中国台湾和香港地区娱乐榜分别位列第一和第三。

元象 XVERSE 于 2021 年初在深圳成立，是国内领先的 AI 与 3D 技术服务公司，致力于打造 AI 驱动的 3D 内容生产与消费一站式平台，愿景为“定义你的世界”。

元象创始人姚星是前腾讯副总裁和腾讯 AI Lab 创始人、国家科技部新一代人工智能战略咨询委员会成员。元象累计融资金额超过 2 亿美元，投资机构包括腾讯、高榕资本、五源资本、高瓴创投、红杉中国、淡马锡和CPE源峰等。

Saylo 架构元象全家参数通信模型训练性能剧本腾讯 MoE

上一篇：深度操作系统公布 deepin 25 开发计划，2025 年 01 月发布

下一篇：国轩高科大跌3.18%！前海开源基金旗下1只基金持有

元象发布国内最大MoE开源模型 “全家桶”免费向全球开放

MoE架构上多种创新

坚持开源路线

自研AI“剧本杀”火了

相关内容

热门资讯