苹果研究团队曾测试20款先进AI模型在有干扰项下简单算术题表现甚至不如小学生_linux资讯_linux办公网

苹果研究团队曾测试20款先进AI模型在有干扰项下简单算术题表现甚至不如小学生

创始人

2024-11-04 09:57:13

0次

《洛杉矶时报》昨日（11 月 1 日）发布博文，报道称苹果研究团队测试了 20 个最先进的 AI 模型，发现在有干扰项存在的情况下，它们处理简单的算术问题时表现不佳，甚至不如小学生。

苹果公司用以下这道简单的算术题测试 20 多个最先进的 AI 模型，IT之家附上题目如下：

Oliver 在星期五采摘了 44 个猕猴桃、然后他在星期六采摘了 58 个猕猴桃，星期日采摘的数量是星期五的两倍，不过其中有 5 个猕猴桃的块头要比平均值要小，请问 Oliver 这三天共摘了多少个猕猴桃？

正确答案是 190 个，计算公式为 44（星期五）+58（星期六）+88（44*2，星期日）。

不过测试的 20 多个最先进 AI 模型无法排除干扰项，通常不理解猕猴桃的大小和数量无关，大部分的结果是 185 个。

苹果团队发现，当问题包含看似相关但实际上无关的信息时，AI 模型的表现急剧下降。对此研究认为，AI 模型主要依赖于训练数据中的语言模式，而非真正理解数学概念。

苹果的研究表明，目前的 AI 模型“无法进行真正的逻辑推理”。这一发现提醒我们，尽管 AI 在某些任务上表现出色，但其智能并不如表面看起来那样可靠。

苹果团队指出，简单地扩展数据或计算能力并不能根本解决这个问题，苹果的论文并非旨在削弱对 AI 能力的热情，而是提供一种理性的认知。

来源：IT之家

项下苹果 Oliver 干扰团队模型测试问题猕猴桃研究苹果公司算术题

上一篇：这场“书”适之旅怎能不AI 深圳读书月数字阅读艺术展首个周末迎众多观众

下一篇：开源证券给予新乳业增持评级

相关内容

聚焦AI+大模型、三维重建...

中新网北京5月31日电 (记者孙自法)记者5月31日从中国图像图...

2026-06-01 00:57:14

国泰海通：维持海外AI算力...

国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出，O...

2026-06-01 00:54:38

小米开源可控视频音效生成模...

IT之家 5 月 29 日消息，小米大模型应用团队今日发布 Con...

2026-06-01 00:41:13

全球首次单机降服万亿巨模D...

从数学、代码、复杂推理，到多轮工具调用，大模型的很多能力的提升都离...

2026-05-28 20:34:56

自变量开源 Wall-OS...

2026-05-28 16:19:28 作者：狼叫兽自变量机器...

2026-05-28 20:29:33

中国AI大模型Token调...

每经记者｜宋欣悦每经编辑｜高涵近日，《每日经济新闻》记者根...

2026-05-28 20:18:22

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯（记者魏蔚）9月20日，阿里云无影AI云电脑在2024云栖大会上展出，该版本基于最新的终端...

MWC2025荣耀多款AI技术... 人民财讯3月6日电，2025世界移动通信大会（MWC 2025）上，荣耀MagicBook Pro ...

原创 2... #春日生活好物种草季#近年来，笔记本电脑市场迎来技术爆发期，尤其在手机厂商跨界入局后，轻薄本在性能、...

摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息，摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...

摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息，作为国产GPU的杰出代表，摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...

谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息，谷歌于 8 月 27 日发布博文，宣布旗下 Gemini AI 支持...

微软 Azure AI 语音服... IT之家 8 月 23 日消息，微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...

青云QingCloud Kub... 日前，青云科技宣布开源 Thanos 的企业级发行版 Whizard，为企业带来真正高可用、可扩展、...

AMD锐龙AI 9 HX 37... 2024年6月3日，AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...

Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大的mac卸载工具，以帮助您完全卸载...