阿里通义 QwQ 登场:开源 AI 推理新王,MATH 测试超 OpenAI o1
创始人
2024-11-28 10:01:12
0

IT之家 11 月 28 日消息,阿里通义千问今天(11 月 28 日)发布《QwQ: 思忖未知之界》博文,推出了 QwQ-32B-Preview 实验性研究模型,在数学和编程领域,尤其在需要深度推理的复杂问题上,具备卓越的 AI 推理能力。

它是少数能与 OpenAI 的 o1 匹敌的模型之一,并且是第一个能以宽松许可证下载的模型。QwQ-32B-Preview 在 Apache 2.0 许可证下“公开”可用,这意味着它可以用于商业应用。

QwQ 愿景

阿里通义千问团队表示“思考、质疑、理解,是人类探索未知的永恒追求”,而 QwQ 犹如一位怀抱无尽好奇的学徒,以思考和疑问照亮前路。

模型局限性

阿里通义千问团队首先表明 QwQ 模型具备局限性,仍在学习如何行走于理性之路,它的思绪偶尔飘散,答案或许未尽完善,智慧仍在积淀。

IT之家附上原文中对该模型的局限性介绍如下:

  • 语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。

  • 推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。

  • 安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。我们强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。

  • 能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。我们正通过持续优化,努力提升模型的综合能力。

模型表现

QwQ-32B-Preview 包含 325 亿个参数,能够处理最长 32000 个 tokens 的提示词;在 AIME 和 MATH 基准测试中,它的表现优于 OpenAI 的两个推理模型 o1-preview 和 o1-mini。

GPQA

该基准是一个通过小学级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。QwQ-32B-Preview 评分为 65.2%,展示了研究生水平的科学推理能力。

AIME

该基准涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。QwQ-32B-Preview 评分为 50.0%,证明了强大的数学问题解决技能。

MATH-500

该基准包含 500 个测试样本的 MATH 评测集,全面考察数学解题能力。QwQ-32B-Preview 成绩为 90.6%,体现了在各类数学主题上的全面理解。

LiveCodeBench

该基准评估真实编程场景中代码生成和问题解决能力的高难度评测集。QwQ-32B-Preview 成绩为 50.0%,验证了在实际编程场景中的出色表现。

参考

相关内容

“AI+能源”顶层设计提振...
截至5月11日10点17分,上证指数涨0.73%,深证成指涨1.6...
2026-05-11 11:40:20
打造AI应用创新高地
□中国信息通信研究院中部大数据创新中心副主任、河南省人工智能协会秘...
2026-05-11 11:37:48
早报|微信灰测「组合支付」...
苹果或「小幅重新设计」macOS 27 的液态玻璃界面 曝字节跳动...
2026-05-11 11:35:26
腾讯李强:加大与中国移动在...
2026移动云大会昨日圆满落幕。大会现场,腾讯集团副总裁、政企业务...
2026-05-10 17:08:41
让企业安全用好AI,中国移...
作者:闫滟 来源:科技最前线 (kejizqx) 大模型落地政企市...
2026-05-10 17:06:50
人工智能产业日报(05.0...
公司动态 百度文心5.1正式发布:搜索能力国内第一!预训练成...
2026-05-10 17:02:31

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...