作者 | 阿童木
人工智能(AI,Artificial Intelligence),是一种利用算法系统来模拟甚至模仿人类的思考、学习和自主决策能力的技术 [1]。从定义上来看,AI是对人类智能的模仿,学堂君不禁想:
AI有自己的人格吗?
它是否也会形成自己的价值观和道德准则?
如果答案是肯定的,这样的“个性”会对我们的生活带来怎样的影响?
(图源网络,侵删)
AI有性格吗
最近一项研究使用大五人格测试了AI模型背后的编码器,结果发现,不同AI模型竟然“性格迥异” [2]!但整体来看,这些模型的得分相对居中且均衡,表现出一种近似“良好适应性人格”的特征:例如,在神经质维度上得分较低(意味着情绪较稳定),在尽责性维度上得分较高(意味着条理清晰、有责任心),只有个别模型表现得有些“自恋”。
我们都知道,性格,也就是心理学里说的人格,是一种比较稳定的特质。
但是,很多用过AI工具的小伙伴可能会问:同样的问题,AI基本不会产生一样的回答,那心理学家是怎么确定这些AI模型真的稳定地“拥有”这些人格特质呢?
要回答这个问题,我们先要从心理测量学聊起。
心理学的一把“尺子”
或许你在阅读大学堂往期的文章中发现,文章中常常提到诸如“量表”“测量”这样的字眼。心理测量,顾名思义,就是用一把“尺子”去衡量我们的心理特质。就像温度计能告诉我们冷热,量杯能告诉我们液体多少一样,心理测量帮我们量化那些看不见摸不着的心理状态。
举个例子,假如学堂君今天遇到了一件让ta火冒三丈的事情,遇到朋友后不禁得吐槽起来,但朋友却难以判断ta到底有多生气,不知道要付出多大努力来安抚ta。此时,心理测量学家可能会建议用数字1到10来描述愤怒程度,1代表一点也不生气,10则是极端愤怒。学堂君想了想,觉得自己大概是5分左右,这样朋友就清楚地知道了:ta现在虽然还在“气头上”,但还算可控。
这种方法,其实就体现了心理测量学家量化心理特质的一种思维方式。
那AI也能这样回答问题吗?严格来说,并不能。虽然AI很多时候都表现得很像人类,但实际上,它是根据你说过的每一个词,去计算“接下来最有可能出现的词”是什么——就像是在玩一个复杂的填空游戏。也就是说,AI通过预测词语出现的概率分布,来判断哪种回应最有可能“接得上你的话”。因此,研究人员只能把人格量表中的描述逐一向AI展示:例如,先给出描述“我认为我是健谈的”;再给出所有可能的答案选项(完全不同意,有点同意……非常同意),让模型给出每一个选项生成的概率,再使用各项概率计算出一个总得分,得分越高,就代表AI在这方面的“性格”特质倾向越强 [2]。
除此之外,随着AI模型以惊人速度不断地发展和迭代,我们都想知道,新的AI模型究竟有没有变得更加“智能”?
(图源网络,侵删)
给AI测智力
在和AI工具互动的过程中,有时候我们可能会感觉它很“聪明”,比如它能给我们解释一个新概念、指导我们去编写代码、操作某些系统等;但有时候又觉得它似乎不是“很懂我”,我指东它往西。那么,我们需要怎样确定AI是“真的智能”还是“能力不足”呢?这问题也是研究人员所好奇的,于是,AI心理测量学“诞生”了。
//测量AI的“冷智力”——3.11还是3.08大?
前段时间,一个看似简单的问题难倒了一众AI模型——3.11还是3.8大?回答这个问题对我们来说简直小菜一碟,但AI模型却表现得忽好忽坏,甚至坚信3.11就是比3.8大——因为11大于8,导致这种错误的原因我们暂且按下不表。我们想要知道,AI有能力解决哪些问题或完成哪些任务,也就是AI“智商”如何。
早在20世纪60年代,研究人员就开始尝试用人类的智力测验来评估AI的“智商”。例如,Thomas Evans设计了一个可以解几何类比题的计算机程序,这类题型原本是属于人类的智力测试的。诸如此类的“标准化智力测验”往往关注的是AI在逻辑推理、规则应用等方面的表现,也就是所谓的“冷智力”[2]。但随着AI拟人化程度越来越高,心理学研究者也开始关注到了AI在另一种能力上的表现。
//测量AI的“热智力”——AI真的能理解我的感受吗?
尽管多数心理学家仍持谨慎态度,认为我们不应轻易赋予 AI 人类的心理能力,但如今,AI 所生成的文本中确实出现了越来越多类人的特质,正如上文提到的性格特质。而随着技术的进步,许多AI工具逐渐参与到人类社交、陪伴和心理支持等场景,似乎具备了情绪和社会智力,例如能够与他人共情,也就是“热智力”。例如,很多人都关心:AI是否能够真正意义上的理解对方?也就是我们所说的心理理论——它其实是一种能力,简单来说就是是否能够站在对方的角度思考,从而理解到对方所面临的情境、拥有的信息等状况。
举个例子,当你看到面前放着一个饼干盒,你也许会猜测里面放着一些美味的饼干。当你打开盖子后,发现里面居然放着一些铅笔!这时候,再把盒子盖上,你的好朋友学堂君也正好走了过来,你觉得学堂君会认为盒子里放着什么?
A. 铅笔
B. 饼干
如果你选择了B,恭喜你通过心理理论测试!因为你能够站到学堂君所处的情境来思考和推理,一般来说,这种能力大概会在我们4到5岁时获得 [3]。
(图源网络,侵删)
有研究发现,GPT-3.5能够通过20%的心理理论相关的任务;而ChatGPT-4能够通过75%的任务,达到了6岁儿童在相关研究中的表现水平 [4]。但也有研究指出,只要稍微改动一下题目表述或情境细节,AI对这些任务的回答就会发生巨大的转变 [5]。因此,给AI做心理测量也面临着信效度问题——也就是如果AI通过了测试,是否证明AI就拥有了和人类一样的心理能力呢?以及,AI通过了某次测试,它能够在各种换汤不换药的情况下产生稳定的表现吗?
也许在未来,AI模型不断发展,最终可以做到100%通过这些心理测试,但我们依然要对AI是否真的具备了这些心理能力的结论抱有非常谨慎的态度。我们不能简单看AI在测试中的结果,而要考虑其背后的生成机制。毕竟,大语言模型是用海量数据训练出来的,但是一个四五岁儿童能够完成心理理论测试却没有如此庞大的“数据输入”。换句话说,AI可能通过不一样的路径而表现得和人类很相似甚至一样,但并不能就此轻易认定AI就真正拥有了某种心理[5]。
未完待续
AI越来越强大的“能力”有时候会让我们产生错觉——我们是否正在和一名“网友”在交流?因此,心理测量学家认为,现在更重要的事情是开发新的测量工具及系统、对人工智能工具进行“终身监控”——例如,人工智能是否有反社会和歧视行为?是否带有偏见?——才能保障用户的健康和权益。
当然,AI的发展也可能为心理测量工具的开发带来新的机遇。例如,有研究发现,AI可以通过分析人们写下的文字,来判断他们当前的心理状态(比如,此时此刻是否过于焦虑)[6]。这样的测量方式不再依赖传统的问卷,而是通过人们日常说的话或写的内容,实时捕捉他们的情绪变化。此外,许多研究者也正在探讨是否能够让AI模拟人类作为研究对象,由此既节省成本又可以更全面地关注到不同群体的特点、以及帮助制定更有效的干预方案、同时减少潜在的因心理干预方案不成熟而给人带来的伤害 [7]。
本篇篇幅有限,只讨论了AI心理测量学的冰山一角。未来何去何从,需要我们回望心理测量的传统智慧,迎接AI发展的不确定性,持续提问、不断修正。正如《现代心理测量》的作者在引言中写道:
“忘记过去必将重蹈覆辙。”
“
专栏君
篇幅宜人性:★★★★★
趣味可读性:★★★★
科学严谨性:★★★★★
心理测量学虽然被认为是心理学的一个分支领域,但它的影响力远超心理学的范畴。从教育领域:我们如何确定一份试卷难度是否适中?如何确定它具有选拔意义,即能区分不同能力的人群?再到企业组织里:我们怎么预测一个人是否会为了利益而背叛组织?生活中:每个人的“信用分”是怎么计算的?如果你好奇这些问题,不妨在心理测量发展的历程中找找答案。除此之外,《现代心理测量》不仅全面、细致地介绍了传统的心理测量知识,还提出了以计算机、人工智能技术极速发展为背景下的许多问题——AI有道德伦理吗,有的话这种道德伦理和人类一样吗?面对这些新的技术,心理测量也将迎来新的挑战和机遇。
[1] Wikipedia contributors. (2025, May 20). Artificial intelligence. Wikipedia. https://en.wikipedia.org/wiki/Artificial_intelligence
[2] Pellert, M., Lechner, C. M., Wagner, C., Rammstedt, B., & Strohmaier, M. (2024). Ai psychometrics: Assessing the psychological profiles of large language models through psychometric inventories. Perspectives on Psychological Science, 19(5), 808-826.
[3] Gopnik, A., & Astington, J. W. (1988). Children's understanding of representational change and its relation to the understanding of false belief and the appearance-reality distinction. Child development, 26-37.
[5] Ullman, T. (2023). Large language models fail on trivial alterations to theory-of-mind tasks. arXiv preprint arXiv:2302.08399.
[6] Ahmad, F., Abbasi, A., Li, J., Dobolyi, D. G., Netemeyer, R. G., Clifford, G. D., & Chen, H. (2020). A deep learning architecture for psychometric natural language processing. ACM Transactions on Information Systems (TOIS), 38(1), 1-29.
[7] Petrov, N. B., Serapio-García, G., & Rentfrow, J. (2024). Limited ability of llms to simulate human psychological behaviours: a psychometric analysis. arXiv preprint arXiv:2405.07248.
作者 | 阿童木
编辑 | 一秒钟
美编 | N 伯翰