4月30日,据“Xiaomi MiMo”公众号消息称,小米开源首个为推理而生的大模型“Xiaomi MiMo”,通过联动预训练到后训练,全面提升推理能力。
据介绍,在数学推理(AIME24-25)和代码竞赛(Live Code Benchv5)公开测评集中,参数规模仅7B的MiMo,超越了OpenAI的闭源推理模型o1-mini,以及阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。
随着DeepSeek-R1引发业界强化学习共创潮,DeepSeek-R1-Distill-7B和Qwen2.5-32B已成为广泛使用的强化学习起步模型。在相同RL训练数据情况下,MiMo-7B在数学与代码领域的强化学习潜力显著领先。
我们了解到,MiMo推理能力的提升,得益于预训练和后训练阶段在数据和算法等多层面的创新。预训练阶段,重点是让模型接触更多推理模式数据,为此着重挖掘富推理语料,合成约200B tokens推理数据,并进行三阶段训练,逐步提升训练难度,总训练量达25T tokens。
目前,MiMo-7B全系列已开源4个模型至Hugging Face。MiMo来自新成立不久的“小米大模型Core团队”的初步尝试。#大模型# #人工智能# #大厂# #科技造福人类# #小米# #雷军# #MiMo# #开源# #参数# #科技的力量# #开发# #科技数码新鲜事儿#