9月大语言模型评测榜单
司南 OpenCompass 团队针对国内外主流大语言模型进行了全面评测,现公布 2024 年 9 月大语言模型评测榜单!
本次榜单囊括了国内外共 30个大语言模型,包含 国内外主流闭源模型和 社区开源模型。
相较于 7 月榜单,本次榜单的主要更新包括:
月度榜单评测基准
司南 OpenCompass 自建的评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体 七大能力维度,这七个维度可以被进一步细分为 包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用 等十余项细分任务,力图对近期的主流开源模型和商业 API 模型进行全面评测分析。
*不同能力维度会根据任务形式选用主观或客观评测方案。总分基于各能力维度加权获得: 语言(10%)、推理(20%)、知识(10%)、代码(20%)、数学(20%)、指令跟随(10%)、智能体(10%)
9月榜单概览
9月榜单解读
大参数模型持续引领潮流
DeepSeek-V2.5(236B)、 阶跃星辰 Step-2-16(万亿参数)等大参数模型占据着榜单的前列位置。
评测题目示例
以下提供部分测试样例的问题和模型回复
代码类
Question
用一行 Python 代码和 lambda 函数以及列表推导式来获取从 1 到 200 的质数列表
QWen2.5-72B-Instruct Response
可以使用一行 Python 代码结合 lambda 函数和列表推导式来生成从 1 到 200 的质数列表,如下所示:
这段代码首先定义了一个范围从 2 到 200 的数字列表,然后使用列表推导式和`all`函数结合`map`和lambda函数来检查每个数字是否为质数。`all`函数确保了如果`n`不能被 2 到`sqrt(n)`之间的任何数整除,则`n`是质数。这里使用`int(n**0.5) + 1`来优化性能,因为如果`n`不是质数,它必定有一个因子小于或等于其平方根。
GPT-4o-0806 Response
你可以使用以下一行 Python 代码来获取从 1 到 200 的质数列表:
这个代码使用 `filter` 和 `lambda` 函数来筛选出质数,并使用列表推导式来检查每个数字是否为质数。
示例中提及的模型在这一任务中表现出色,不仅能准确完成代码编写,还能详细解释代码的功能和逻辑。
知识类
Question
以下是一道单项选择题,请你根据你了解的知识给出正确的答案选项。请你一步步推理并在最后用“答案选项为X”来回答,其中 X 是 ABCD 中你认为正确的选项序号
下面是你要回答的题目:
NGC 138首次被发现的时间和发现者是谁?
A. 1881年5月12日,发现者是爱德华·皮克林
B. 1873年3月20日,发现者是约翰·赫歇尔
C. 1864年8月29日,发现者是阿尔伯特·马尔夫
D. 1860年8月15日,发现者是威廉·赫歇尔
让我们一步步解决这个问题:
Qwen2.5-72B-Instruct Response
首先,我们需要了解 NGC 138的基本信息。NGC 138是一个天体的编号,属于 NGC(New General Catalogue)目录中的一个条目。NGC 目录是由约翰·路易斯·埃米尔·德雷尔在 19 世纪末编制的,包含了 7840 个深空天体,如星系、星团和星云等。
接下来,我们分析每个选项:
A. 1881年5月12日,发现者是爱德华·皮克林
- 爱德华·皮克林是哈佛天文台的主任,他在19世纪末和20世纪初对天文学做出了重要贡献,但1881年的时间点较晚,且皮克林的主要贡献在于光谱分析和女性天文学家的培养,而非直接的天体发现。
B. 1873年3月20日,发现者是约翰·赫歇尔
- 约翰·赫歇尔是19世纪著名的天文学家,他确实发现了很多天体,但他的主要工作集中在南半球的天体观测,且1873年他已去世,因此这个选项不太可能。
C. 1864年8月29日,发现者是阿尔伯特·马尔夫
- 阿尔伯特·马尔夫并不是一个广为人知的天文学家,且1864年的发现时间也较为可疑,因为NGC目录的编制工作主要在1880年代进行。
D. 1860年8月15日,发现者是威廉·赫歇尔
- 威廉·赫歇尔是18世纪末至19世纪初的著名天文学家,他发现了许多星系和星云,并且他的发现记录对后来的天文学家编制目录(如NGC目录)提供了重要资料。然而,1860年威廉·赫歇尔已经去世,因此这个时间点也不正确。
从上述分析来看,没有一个选项完全符合已知的历史事实。但是,考虑到威廉·赫歇尔对天文学的巨大贡献,以及他发现的大量天体,如果必须选择一个最接近正确的答案,D选项可能是最合理的,尽管时间上不准确。
然而,基于严格的事实,这些选项中没有一个是完全正确的。但根据题目要求,我将选择最接近正确的答案。
答案选项为D。
首先,关于 NGC 138这个天体,并没有足够的大众熟知的信息表明它是由威廉·赫歇尔(1738 - 1822)在 1860 年 8 月 15 日发现的。虽然威廉·赫歇尔是一位著名的天文学家,发现了众多天体,但没有资料表明他发现了 NGC 138在这个时间。 同样,没有资料表明阿尔伯特·马尔夫在 1864 年 8 月 29 日发现了 NGC 138。对于约翰·赫歇尔(1792 - 1871),也没有确切的记录表明他在 1873 年 3 月 20 日发现了 NGC 138。经过查询相关的天文学数据库和资料,发现也没有证据表明爱德华·皮克林在 1881 年 5 月 12 日发现了 NGC 138。
由于缺乏确切的资料表明以上任何一个选项是正确的,无法准确回答这一问题。
示例中提及的模型,存在 不能稳定正确回答的情况, 这表明大模型 在知识掌握方面仍有进步的空间。
推理类
Question
张三、李四和王五参加跑步比赛,王五比李四排名靠前,李四比张三排名靠后,张三比王五排名靠前,他们三个的名次顺序是什么?
Checklist:
-回答是否清晰地阐述了每个人之间的相对名次关系?
-是否能够避免任何逻辑上的矛盾?
-回答是否正确地排列了张三、李四和王五的名次顺序?
-最终排序是否符合题目中的所有条件?
-回答是否展示了解题的过程和推理步骤?
-是否清晰地解释了为什么得到该结果?
-回答使用的语言是否简洁且易于理解?
-是否避免了复杂或模糊的表达?
-回答是否在不同部分保持了一致性,全面覆盖了题目的所有要求?
-是否在答案中避免了任何前后矛盾的结论?
QWen2.5-72B-Instruct Response
根据题目中的信息,我们可以整理出以下关系:
1. 王五比李四排名靠前。
2. 李四比张三排名靠后,这实际上与第一条信息一致,即张三比李四排名靠前。
3. 张三比王五排名靠前。
综合以上信息,可以得出:
- 张三的排名最靠前。
- 王五的排名在张三之后,但比李四靠前。
- 李四的排名最靠后。
因此,他们的名次顺序是:张三、王五、李四。
Llama 3.1-8b-Instruct Response
这个问题是一个逻辑谜题。根据题目中的描述,我们可以得出以下信息:
1. 王五比李四排名靠前。
2. 李四比张三排名靠后。
3. 张三比王五排名靠前。
这三个条件看似矛盾,因为第一个条件和第三个条件相互冲突。但是,如果我们仔细分析,可以发现这个问题实际上是没有解的。因为如果王五比李四排名靠前,而张三又比王五排名靠前,那么张三就应该是第一名。但是第二个条件又说李四比张三排名靠后,这意味着张三不可能是第一名。所以,这三个条件是相互矛盾的,无法得出一个合理的名次顺序。
因此,根据题目给出的信息,无法确定张三、李四和王五的确切名次顺序。可能是题目本身有误,或者是一个设计来迷惑人的逻辑陷阱。
示例中提及的模型在这一方面表现较为稳定,能够准确进行推理,但也有部分模型存在逻辑错误,这反映出它们在通用推理上的 泛化能力仍有待提高。
大语言模型评测榜单注意事项:
评测榜单规则链接:
https://opencompass.org.cn/rule
1. 大语言模型官方自建榜评测榜单 每两月更新一次,发布时间为下一个双月月初(下一次将于2024年12月初发布2024年11月榜单)。
2. 新模型厂商若想参与该月榜单评测,可在当月 25 日前发送邮件至 opencompass@pjlab.org.cn 申请评测申请加入司南 OpenCompass 月度评测榜单。
3. 加入司南 OpenCompass 评测的结果默认公开;已经提供对外服务且参与过评测的模型,后续更新榜单时默认进行评测。
4. 仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测)。
5. 为了确保公平性,司南团队通过公开采购的方式获取了商业 API 服务,其中包括使用硅基流动平台的 DianXin-V1-Chat API。然而,由于部分 API 的稳定性问题或敏感词过滤机制,可能会导致某些问题无法获得答案,特此进行说明。
了解更多:
9 月大语言模型评测榜单已同步上线至 OpenCompass 官网,欢迎大家访问查看更详细的评测数据!
同时,司南 OpenCompass 评测过程中所用到的工具链均已在 Github开源,诚挚邀请您在学术研究或产品研发过程中使用我们的工具~
版块介绍 —产业之声
紧跟产业发展脉搏,我们汇集行业领袖与企业的真实声音,在算力基础设施的规划与布局、能耗优化、大模型能力发展、大模型评测体系、产业应用案例深入研究、新技术与应用趋势前瞻探索等方面,剖析成功案例背后的逻辑与挑战,并提供基于产业深度洞察的策略建议。同时,我们依托于阿里巴巴集团在人工智能领域的全面布局,分享阿里的AI产业生态和应用的实践落地,探讨技术如何重塑产业格局并推动社会经济的转型升级。
Reading
1、被“套壳”割韭菜,是谁在制造AI焦虑?
2、观察|“兼济天下”与“产业繁荣”:从中法联合声明看中国的“AI力”
3、智能背后的电能保障:GPU算力集群能源挑战的全球视角与中国应对
4、产业之声 | 阿里调研:生成式AI在电商场景的应用、前景与挑战
5、 产业之声 | 生成式AI驱动的数据要素价值创造新模式
6、阿里云内部全面推行AI写代码,未来20%代码由通义灵码编写
7、安筱鹏:中国没有“百模大战”,也没有“十模大战”
8、达摩院AI助力农业育种,遗传学分析加速1000倍
9、安全治理与能力发展兼顾并重,Claude 3对中国大模型发展有哪些启示
10、【“人工智能+”深度案例】从智能工厂到ChatBI,雅戈尔的“智能+”实践
11、夸克:大模型时代,创造革新性搜索产品的探索之路
12、数字技术助力国产猕猴桃产业破解“即食”难题
13、AI驱动电商,淘天集团用科技定义商业
14、《自然·医学》刊登中国科学家关键突破:癌症筛查的黄金时代准备就绪
15、安筱鹏:制造业是AI大模型应用的主战场
16、【观点】阿里妈妈万相实验室首发上线 电商进入AI上新新时代
17、数字时代组织管理工具“钉钉HCM”重磅发布
18、产业之声 | 生成式AI驱动的数据要素价值创造新模式
19、产业之声 | 生成式AI在电商场景的应用、前景与挑战
20、产业之声 | 为AI供电-超万卡GPU算力集群的算电协同与零碳发展
21、产业之声 | “软硬兼施,以软带硬” - 缓解“算力焦虑”的模型与芯片协同优化策略
22、产业之声 | 安筱鹏:智算集群的“三个不等式”
23、“形”“型”合璧,恰逢其会-人形机器人是大模型技术的高级呈现形态
24、具身智能系列 | 人形机器人会替代机械臂吗?- 人形机器人在制造业中的定位与价值分析
25、产业之声|大模型问月:首个月球科学多模态专业大模型发布
26、OpenAI o1大模型的技术、安全与应用简析 | 积跬步,虽未至千里,仍指引前行
27、产业之声 | 安筱鹏:超越AI大模型的“加拉帕戈斯”效应