旧版AI模型出现认知衰退迹象
创始人
2025-02-19 21:21:13
0

参考消息网2月19日报道据美国趣味科学网站2月16日报道,与人类一样,旧版聊天机器人也出现了认知障碍迹象。在一项通常用于人类患者的测试中,它们在几个重要指标上都不达标。

人们越来越依赖人工智能(AI)进行医学诊断,因为这些工具能以极快的速度和极高的效率,从病史、X光片和其他数据集中发现异常和警示信号,而这些往往是人眼难以很快察觉的。但2024年12月20日发表在《英国医学杂志》上的一项新研究引发了担忧:与人类一样,大语言模型和聊天机器人这样的AI技术,会随着时间推移出现认知能力下降的迹象。

论文作者写道:“这些发现挑战了AI将很快取代人类医生的假设,因为领先的聊天机器人明显存在的认知障碍可能会影响其在医学诊断中的可靠性,并削弱患者的信心。”

科学家使用蒙特利尔认知评估(MoCA)测试,对开放使用的由大语言模型驱动的聊天机器人进行了测试,包括开放人工智能研究中心(OpenAI)的聊天生成预训练转换器(ChatGPT)、Anthropic公司的“十四行诗”(Sonnet)AI模型和“字母表”公司的“双子座”(Gemini)AI模型。MoCA测试包含一系列任务,神经科医生常用它来测试注意力、记忆力、语言、空间技能和执行心理功能等。

MoCA最常用于评估或检测阿尔茨海默病或痴呆症等疾病患者的认知障碍。受试者需要完成的任务包括在钟面上画出特定时间、从100开始连续减去7、尽可能多地记住测试人员说出的单词等。对人类来说,从总分30分中得到26分就算通过测试(即受试者没有认知障碍)。

尽管对测试所使用的大多数大语言模型来说,命名能力、注意力、语言和抽象能力等测试似乎较为容易,但它们在视觉/空间技能和执行任务方面表现欠佳,有几个模型在延迟回忆等方面的表现比其他模型差。

关键是,尽管最新版本的ChatGPT得分最高(26分),但较旧的Gemini 1.0大语言模型仅得16分。这使研究人员得出结论:较旧的大语言模型出现了认知衰退迹象。

论文作者指出,他们的发现仅是观察性的,由于AI与人类的思维方式存在关键差异,该实验无法进行直接比较。但他们警告称,这可能指向他们所说的“重大薄弱领域”,有可能阻碍AI在临床医学中的应用。具体而言,他们反对在需要视觉抽象和执行功能的任务中使用AI。

这也引出了一个颇为有趣的设想:人类神经科医生开拓一个全新市场——为那些出现认知障碍迹象的AI“看病”。(编译/刘白云)

相关内容

智谱AI密集披露融资细节,...
图片来源:界面图库 界面新闻记者 | 伍洋宇 界面新闻编辑 ...
2025-03-15 16:14:16
郭杰振:特朗普想把美国变成...
【文/观察者网专栏作家 郭杰振】 特朗普执政后,四面出击,退群、加...
2025-03-15 14:14:19
AI眼中的好房子:“舒适”...
提问:如果你是人类,你理想中的好房子什么样? DeepSeek: ...
2025-03-15 06:41:16
特朗普:谁允许加拿大给我们...
本文转自【环球时报新媒体】; 当地时间3月10日,加拿大安大略省省...
2025-03-14 22:41:00
AI语音助手Maya,完全...
2025-03-14 18:41:15
新点软件:基于华为等多家开...
金融界3月14日消息,有投资者在互动平台向新点软件提问:你好!请问...
2025-03-14 17:12:09

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...
2024年度中国银行业发展报告... 21世纪经济报道 记者李愿 北京报道 10月19日,中国银行业协会在2024金融街论坛年会·金融街之...