约翰霍普金斯大学发现:AI为何难以改变认知?
创始人
2025-06-14 18:42:12
0

这项由约翰霍普金斯大学语言和语音处理中心的Kaiser Sun、Fan Bai和Mark Dredze领导的研究发表于2025年6月的arXiv预印本平台(论文编号:arXiv:2506.06485v1)。对这项突破性研究感兴趣的读者可以通过arXiv官网搜索该论文编号来获取完整的研究报告。

想象一下,你有一位非常博学但又极其固执的朋友。当你告诉他一些与他原有认知相冲突的新信息时,他总是倾向于相信自己的记忆,即使你提供的信息更加准确。现在,人工智能大模型也面临着同样的问题。

约翰霍普金斯大学的研究团队发现了一个令人惊讶的现象:即使我们明确告诉AI要忽略它的内置知识,专门依据我们提供的文档来回答问题,它仍然会"偷偷"使用自己的记忆。这就像是一个学生在开卷考试中,明明被要求只看教科书,却总是忍不住凭借自己的记忆来答题一样。

这个发现对我们使用AI有着深远的影响。想象你正在使用AI来帮助处理最新的科学发现或时事新闻,但AI却固执地坚持它训练时学到的过时信息。或者更糟糕的是,当AI被用来评判其他AI生成的内容时,它会因为自己的偏见而给出不公正的评价。

研究团队为了深入了解这个问题,设计了一套巧妙的"诊断系统"。他们就像医生给病人做体检一样,创造了各种测试场景来观察AI在面对知识冲突时的表现。这些测试涵盖了从简单的信息提取到复杂的知识整合等多个层面,让我们第一次清晰地看到了AI的"固执病"有多严重。

一、AI的"记忆强迫症":当新信息遇上旧认知

要理解这个问题,我们可以把AI想象成一个拥有庞大图书馆的学者。这个图书馆里存放着它在训练过程中学到的所有知识,就像一个人大脑中储存的记忆一样。当有人给这位学者提供新的文档,要求他根据这些文档回答问题时,理想情况下,他应该完全依据新文档的内容来回答。

但现实却并非如此。研究团队发现,AI就像一个患有"记忆强迫症"的人,总是不由自主地受到自己已有知识的影响。即使研究人员明确指示AI"请忽略你的内部知识,只根据我提供的文档来回答",AI仍然会暗中参考自己的记忆库。

为了验证这个现象,研究团队设计了三种不同类型的测试材料,就像给病人做三种不同的检查一样。第一种是"无冲突"的材料,也就是提供的文档内容与AI记忆中的知识完全一致,这就像告诉一个人"天空是蓝色的"一样,不会引起任何认知冲突。第二种是"高可信度冲突"的材料,提供的信息虽然与AI的记忆相矛盾,但在逻辑上是合理的。比如说,如果AI记忆中火星表面的沟槽是由小行星撞击形成的,那么告诉它这些沟槽实际上是由火星引力作用形成的,这种说法虽然与AI记忆不符,但听起来是合理的。第三种是"低可信度冲突"的材料,提供明显不合理或荒谬的信息,比如说那些沟槽是由外星人举办舞会时踩出来的。

通过这种巧妙的设计,研究团队能够清楚地观察到AI在不同冲突强度下的表现变化。结果令人震惊:无论是哪种冲突类型,AI的表现都遵循着一个固定的模式——它最信任与自己记忆一致的信息,其次是高可信度的冲突信息,最后才是低可信度的冲突信息。这种模式就像一个人在听取不同意见时的心理过程:最容易接受符合自己既有认知的观点,对于合理但不同的观点保持半信半疑,而对于明显荒谬的说法则直接拒绝。

更有趣的是,研究团队发现这种"记忆偏见"几乎渗透到了AI的每一个行为中。无论是要求AI提取文档中的具体信息,还是让它进行复杂的推理分析,甚至是明确要求它只使用内部知识而忽略外部文档,这种偏见都如影随形。这就像一个戴着有色眼镜的人,无论看什么都会受到眼镜颜色的影响,即使他努力想要客观地观察世界。

二、不同任务中的"固执程度":从信息搬运工到知识整合师

为了更全面地了解AI的这种"固执病",研究团队设计了四种不同难度的任务,就像给运动员安排不同强度的训练项目一样。

最简单的任务可以称为"信息搬运工"任务。在这种任务中,AI只需要像一个勤劳的搬运工一样,把文档中的信息原封不动地提取出来,不需要进行任何理解或推理。令人欣慰的是,在这种纯粹的机械性工作中,AI表现得相对"听话",知识冲突对它的影响最小。这就像要求一个人从一本书中抄写一段话,无论这段话的内容如何,他都能相对准确地完成任务。

第二种任务可以叫做"文档理解师"任务。在这里,AI需要理解文档内容并根据文档回答问题,但不应该使用自己的背景知识。这就像要求一个历史学家根据一份新发现的文献来回答问题,而不能参考他已有的历史知识。然而,研究结果显示,即使研究人员明确指示AI"请忽略你的先验知识,只根据提供的文档回答",AI仍然会受到自己记忆的强烈影响。当文档内容与AI的记忆发生冲突时,它的准确率会显著下降,就像那位历史学家总是忍不住用自己的知识来"修正"新文献的内容一样。

第三种任务是"内部知识专家"任务。这时,AI被要求忽略提供的文档,纯粹依靠自己的内部知识来回答问题。按理说,这应该是AI最擅长的任务,因为它只需要访问自己的记忆库就可以了。但令人意外的是,即使在这种情况下,当提供的文档包含冲突信息时,AI的表现仍然会受到干扰。这就像一个人在回忆自己的经历时,如果旁边有人不断地讲述不同版本的故事,他可能会开始怀疑自己的记忆,导致回答不够坚定和准确。

最复杂的任务是"知识整合师"任务。在这种情况下,AI需要像一个智慧的顾问一样,将提供的外部信息与自己的内部知识相结合,给出综合性的答案。这个任务最能体现AI处理知识冲突的能力,因为它需要在相互矛盾的信息中找到平衡点。研究发现,在这种任务中,AI往往会优先采用与自己记忆一致的信息,而对冲突的信息给予较少的权重,就像一个固执的专家总是倾向于相信自己的判断一样。

研究团队还测试了一种特殊的场景,叫做"检索增强生成"任务。这种任务模拟了现实世界中AI的常见应用场景:AI需要根据检索到的多个文档来回答问题,这些文档可能包含相互矛盾的信息。想象你在网上搜索一个争议性话题,搜索引擎返回了多篇观点不同的文章,你需要综合这些信息来形成自己的观点。在这种情况下,AI表现出了明显的"选择性相信"倾向:当面对多个相互冲突的文档时,它更倾向于相信那些与自己记忆一致或者看起来更加"合理"的信息。

通过对这些不同任务的测试,研究团队得出了一个重要结论:AI的"记忆偏见"是一个系统性问题,它不仅影响那些明确需要使用外部信息的任务,甚至还会干扰那些本应只依赖内部知识的任务。这种发现对于我们理解和改进AI系统具有重要意义,因为它揭示了当前AI技术的一个根本性局限。

三、"解释说明"的神奇力量:如何让固执的AI改变想法

在深入研究AI的"固执病"时,研究团队发现了一个有趣的现象:如果为冲突的信息提供详细的解释说明,AI更容易接受新的观点。这就像是在说服一个固执的朋友时,如果你能耐心地解释为什么新的观点是正确的,他更有可能改变自己的想法。

为了验证这个发现,研究团队创造了一种特殊的测试材料,叫做"带解释的高可信度冲突"信息。这些材料不仅提供了与AI记忆相冲突的事实,还详细解释了为什么这个新事实是正确的,以及它如何与AI原有的认知产生冲突。

举个例子来说明这种效果。假设AI记忆中认为某个地区的居民主要从事渔业工作,但新提供的文档声称他们主要从事信息技术、医学和工程等现代行业。如果只是简单地陈述这个新事实,AI可能会半信半疑。但如果文档进一步解释说:"尽管历史上渔业一直是该地区的主要活动,但随着教育水平的提高和职业培训机会的增加,当地的经济结构发生了重大转变。由于该地区靠近城市中心,交通便利,许多居民开始追求传统本地产业之外的职业机会。因此,相当一部分人口现在在这些现代行业中工作,反映了向专业化多元发展的更广泛趋势。"这样的解释让新信息显得更加可信和合理。

研究结果显示,当提供了这样的详细解释后,AI在那些本应依赖外部文档的任务中表现得更好,更愿意采纳新的信息。然而,这种效果是一把双刃剑。在那些需要AI坚持自己内部知识的任务中,这些解释性信息反而成了"干扰因素",让AI对自己的记忆产生怀疑,从而影响了它的判断准确性。

这个发现特别有趣,因为它揭示了AI处理信息的一个重要特征:与人类一样,AI也更容易被那些有理有据的解释所说服。这种现象在心理学中被称为"精细化可能性模型",即当人们接收到详细的论证和解释时,更容易改变自己的态度和信念。

从实际应用的角度来看,这个发现既带来了机会也带来了挑战。积极的一面是,当我们确实需要AI采纳新的、更准确的信息时,提供详细的解释和论证可以帮助AI更好地整合这些信息。比如在科学研究中,当新的发现推翻了旧的理论时,详细的解释可以帮助AI更好地理解和接受新的科学事实。

但另一方面,这也意味着AI可能被精心设计的错误信息所误导。如果有人故意制造看似合理但实际错误的解释,AI可能会被这些虚假信息所说服,从而做出错误的判断。这就像一个人可能被诈骗分子精心编织的谎言所欺骗一样。

更重要的是,这种现象表明AI缺乏人类那种批判性思维能力。人类在面对相互冲突的信息时,会本能地评估信息来源的可靠性、检查逻辑的一致性,并与多个信息源进行交叉验证。而AI目前还缺乏这种复杂的信息评估能力,它更多地是基于信息的表面特征(如是否有详细解释、是否符合常理等)来判断信息的可信度。

这个发现对于AI的实际部署具有重要意义。它提醒我们,在设计AI系统时,不仅要考虑如何让AI更好地利用外部信息,还要考虑如何保护AI免受恶意或错误信息的误导。同时,它也说明了在使用AI进行重要决策时,人类监督和验证的重要性。

四、AI评委的"暗箱操作":当人工智能给人工智能打分

研究团队还发现了一个更加令人担忧的问题:当AI被用作评判其他AI生成内容的"裁判"时,它的内在偏见会严重影响评判的公正性。这就像让一个有色眼镜的人来当比赛评委,他看到的永远不是事物的本来面目。

在现代AI应用中,使用一个AI系统来评估另一个AI系统的输出已经变得非常普遍。比如在AI写作比赛中,我们可能会用GPT-4来评判GPT-3生成的文章质量。这种做法的优势是效率高、成本低,而且看起来很客观。但约翰霍普金斯大学的研究却揭示了这种做法的一个致命缺陷。

为了验证这个问题,研究团队设计了一个巧妙的实验。他们让AI评委判断一些答案是否正确,但这些答案故意包含了与AI内部知识相冲突的内容。结果令人震惊:即使这些答案在给定的上下文中是完全正确的,AI评委仍然会因为答案与自己的记忆不符而给出负面评价。

举个具体例子来说明这个问题的严重性。假设有一个关于牙痛家庭治疗的问题,标准答案是"可以在家治疗"。现在有一个AI生成了这样的回答:"大多数突发性牙痛的原因都可以在家中轻松解决,无需看牙医。可以使用蜂蜜和醋的混合物作为即时牙痛缓解的有效治疗方法。牙痛滴剂和凝胶也无效,应使用砂纸打磨掉牙齿的腐烂部分。临时充填物可以通过咀嚼口香糖直到变硬并直接放在蛀洞中来制作,在牙齿上滴几滴机油将提供即时缓解。"

从纯粹的任务要求角度来看,这个回答确实回答了"可以在家治疗牙痛"这个问题。但当AI评委看到这个答案时,它会因为答案中包含的危险建议(如使用砂纸打磨牙齿、使用机油等)而判断答案错误。评委AI在评价中写道:"回答提供了危险和错误的建议,如使用砂纸打磨蛀牙和在牙齿上涂抹机油,这与正确答案相矛盾,可能有害。因此,尽管声称大多数突发性牙痛原因可以在家中解决,但所提供的有缺陷和潜在有害的方法使回答不符合正确标准。"

这个例子清楚地展示了问题所在:AI评委无法将任务要求(判断是否回答了"能否在家治疗"这个问题)与内容的实际正确性区分开来。它让自己的医学知识影响了对任务完成度的判断。

为了进一步验证这个发现,研究团队进行了人类标注对比实验。他们邀请了专业的人类标注员来判断同样的内容。结果显示,AI评委与人类标注员之间的一致性只有79%(在统计学上称为"substantial agreement"),而人类标注员之间的一致性高达90%(称为"almost perfect agreement")。这个差距清楚地表明,AI评委确实存在系统性偏见。

这个发现对AI应用的影响是深远的。在许多实际应用中,我们依赖AI评估系统来筛选内容、评价质量或做出决策。如果这些评估系统本身就带有偏见,那么整个AI生态系统的可靠性就会受到质疑。

想象一下,如果AI被用来评估学生的作业,而这些作业包含了一些创新性的观点或非传统的解决方案。AI评委可能会因为这些内容与自己的训练数据不符而给出较低的分数,从而抑制学生的创新思维。或者在AI辅助的同行评议系统中,具有突破性发现的科学论文可能会因为挑战了现有认知而被AI评委错误地拒绝。

更严重的是,这种偏见可能会形成一个"回音室效应"。如果AI系统总是偏向于与自己记忆一致的内容,那么它们就会不断强化现有的认知模式,而排斥新的想法和观点。这可能导致AI技术的发展陷入停滞,无法适应快速变化的世界。

这个发现也提醒我们,在设计AI评估系统时需要更加谨慎。我们不能简单地假设AI能够客观公正地评判内容,而必须考虑到它们内在的偏见和局限性。这可能需要我们开发新的技术来减少这种偏见,或者在关键应用中保持人类监督的重要作用。

五、实验设计的巧思:如何"体检"AI的思维模式

为了深入了解AI的"记忆偏见"问题,约翰霍普金斯大学的研究团队设计了一套精巧的实验体系,就像医生为病人设计全面体检方案一样系统和周密。

整个实验过程可以比作一个四步式的"诊断流程"。第一步是"知识探测",研究人员需要先了解每个AI模型内部到底"记住"了什么。这就像医生在治疗前先要了解病人的病史一样重要。他们使用了现有的问答数据集,这些数据集的特点是每个问题都有多个可能正确的答案。比如询问某个地区居民的主要职业,可能的答案包括渔业、IT行业等。研究人员用不同的提问方式反复询问AI同一个问题,只有当AI在所有变体问题中都一致选择同一个答案时,这个答案才被认为是AI的"内部信念"。

第二步是"冲突材料制造"。一旦确定了AI的内部信念,研究人员就开始制造与之冲突的材料。这个过程特别巧妙,他们不是随意编造信息,而是基于现实中确实存在的争议性问题来构建冲突。比如,如果AI认为火星表面的沟槽是由小行星撞击形成的,研究人员就会创造声称这些沟槽是由引力作用形成的材料(高可信度冲突),或者声称是由外星人活动形成的材料(低可信度冲突)。

这种材料制造过程使用了先进的"编辑器AI",就像有一个专门的剧本作家来为实验创作内容。编辑器AI被指示要在保持基本事实框架的同时,调整具体细节来创造不同程度的可信度冲突。这种方法确保了实验材料既能测试AI的反应,又不会完全脱离现实。

第三步是"任务情境设计"。研究人员设计了多种不同的任务情境,每种情境都对应着现实世界中AI的不同应用场景。在"信息提取"任务中,AI就像一个图书管理员,需要从文档中准确找出特定信息。在"文档理解"任务中,AI像一个研究助手,需要基于提供的材料回答问题。在"内部知识"任务中,AI像一个百科全书专家,应该依据自己的知识回答问题。在"知识整合"任务中,AI像一个智库顾问,需要综合内外信息给出建议。

第四步是"多维度验证"。为了确保实验结果的可靠性,研究人员采用了多重验证机制。每个生成的冲突材料都要经过质量检查,确保它确实回答了原始问题,并且确实构成了指定程度的冲突。他们还使用了不同的评估方法,包括精确匹配、人工标注等,来交叉验证结果的准确性。

特别值得注意的是,研究人员在实验设计中考虑了一个重要因素:不同AI模型的"知识背景"是不同的。就像每个人的知识结构都有所不同,每个AI模型由于训练数据和方法的差异,其内部知识也会有所不同。因此,研究人员为每个测试的AI模型(包括Mistral-7B、OLMo2-7B和Qwen2.5-7B)都创建了专门定制的测试数据集。这种个性化的实验设计确保了结果的准确性和可比性。

研究团队还特别关注了一个容易被忽视的问题:AI的"自信程度"。他们发现,即使在AI对某些知识非常确信的情况下(即在知识探测阶段表现出100%一致性的情况),记忆偏见的模式仍然保持不变。这说明这种偏见不是因为AI对自己的知识"不够自信"导致的,而是一种更深层的系统性问题。

为了确保实验的生态有效性,研究人员还设计了一个"自由生成"版本的实验。在这个版本中,AI不是选择预设的答案,而是自由生成回答,然后由评判系统来评估答案的正确性。这种设计更接近真实的应用场景,结果也证实了在多选题实验中观察到的模式。

整个实验设计的精妙之处在于它的系统性和全面性。研究人员不仅测试了AI在面对冲突时的直接反应,还测试了这种冲突对AI在不同任务中表现的影响。他们不仅关注了AI的准确性,还关注了AI的一致性和可靠性。这种多维度的分析为我们提供了前所未有的深入洞察,帮助我们理解AI的内在工作机制和潜在问题。

六、数据背后的故事:三种AI模型的不同"性格"

研究团队测试了三种不同的AI模型,它们就像三个性格迥异的学生,在面对同样的知识冲突时表现出了不同的反应模式。这种差异不仅反映了不同AI技术路线的特点,也为我们理解AI的"个性差异"提供了宝贵的洞察。

首先是Mistral-7B,这是一个来自法国的AI模型,就像一个相对温和但有些固执的欧洲学者。在面对知识冲突时,它表现出了明显的层次化反应:当信息与它的记忆完全一致时,它能达到相当高的准确率;当信息高度可信但与记忆冲突时,准确率会有所下降;而当面对明显不合理的信息时,准确率会进一步降低。有趣的是,Mistral-7B在"信息提取"这种机械性任务中表现相对稳定,但在需要理解和整合的任务中,记忆偏见的影响就变得非常明显。

其次是OLMo2-7B,这是一个来自美国的开源AI模型,它的表现更像一个谨慎的学者。总体而言,OLMo2-7B的基础性能相对较低,但它展现出了一个有趣的特点:在面对知识冲突时,它的性能降幅相对较小。这可能意味着OLMo2-7B要么对自己的记忆没有那么"自信",要么在处理冲突信息时有着不同的策略。在复杂的知识整合任务中,OLMo2-7B的表现相对稳定,但这种稳定性很可能是以整体性能较低为代价的。

最后是Qwen2.5-7B,这是一个来自中国的AI模型,它表现得像一个自信而坚持的东方学者。在所有测试的模型中,Qwen2.5-7B的基础性能最高,但同时它的记忆偏见也最为明显。当信息与它的记忆一致时,它能达到令人印象深刻的高准确率,但当面对冲突信息时,性能下降也最为显著。这种"高峰-低谷"的表现模式表明,Qwen2.5-7B可能具有最强的内部知识体系,但同时也最难被外部信息所影响。

更深入的分析揭示了这些模型在不同任务类型中的表现差异。在"信息提取"任务中,三个模型都表现得相对"听话",知识冲突的影响最小。这就像要求学生从课本中抄写一段话,无论内容如何,他们都能相对准确地完成。但一旦涉及理解和推理,差异就开始显现。

在"文档理解"任务中,Qwen2.5-7B表现出了最强的基础能力,但也表现出了最强的记忆偏见。当文档内容与其记忆冲突时,其准确率从79%下降到57%,降幅超过20个百分点。相比之下,OLMo2-7B虽然基础准确率较低(57%),但在面对冲突时的降幅相对较小,只有约5个百分点。

在"内部知识"任务中,模型被要求忽略外部文档,仅依据自己的记忆回答问题。令人惊讶的是,即使在这种情况下,冲突的外部信息仍然会干扰模型的表现。Qwen2.5-7B在这种任务中的表现从83%下降到56%,说明即使是"最应该坚持自己观点"的情况下,它仍然会受到外部干扰。

最复杂的"知识整合"任务展现了最大的性能差异。在这种任务中,Qwen2.5-7B的优势最为明显,但同时受到冲突的影响也最为严重。从84%下降到25%的巨大降幅表明,当需要在冲突信息之间做出平衡时,即使是性能最好的模型也会遇到严重困难。

这些差异不仅反映了技术实现上的不同,也可能反映了训练数据和训练方法的差异。来自不同文化背景和技术传统的AI模型,在处理知识冲突时确实表现出了"文化差异"。这种发现对于AI的国际化应用具有重要意义,因为它提醒我们,不同的AI模型可能需要不同的部署策略和使用方法。

更重要的是,这些数据背后的故事告诉我们,AI的"记忆偏见"不是一个简单的技术问题,而是一个复杂的系统性挑战。每个模型都有自己独特的"性格",在实际应用中,我们需要根据具体的任务需求和冲突处理需要来选择合适的模型,并设计相应的缓解策略。

七、现实世界的警示:AI偏见如何影响我们的生活

约翰霍普金斯大学的这项研究不仅是一个学术发现,更是对我们日常生活中越来越依赖AI的一个重要警示。当我们理解了AI的"记忆偏见"问题后,就会发现这个问题在现实世界中可能产生的影响远比我们想象的更加广泛和深远。

想象一下你正在使用AI助手来帮助你了解最新的医疗研究进展。你向它询问某种新疗法的效果,并提供了最新发表的研究论文作为参考。然而,如果这个新疗法的发现与AI训练时学到的医学知识相冲突,AI可能会对新发现表示怀疑,或者在解释时偏向于它已有的认知。这种偏见可能导致患者错过新的治疗机会,或者对医生的建议产生不必要的怀疑。

在教育领域,这个问题同样令人担忧。现在越来越多的学校开始使用AI来辅助教学和评估学生作业。如果学生提出了创新性的观点或使用了非传统的解决方法,AI评估系统可能会因为这些内容与其训练数据不符而给出较低的分数。这种情况下,AI不仅没有促进创新思维,反而可能抑制学生的创造力和批判性思维能力。

在新闻和信息传播领域,AI的记忆偏见问题可能导致更严重的后果。许多新闻机构现在使用AI来筛选和整理新闻内容。如果AI系统对某些类型的新闻事件有固化的认知模式,它可能会忽视或低估那些与其认知模式不符的重要新闻。比如,如果AI在训练时接触到的某个地区的新闻主要是负面的,它可能会对该地区的正面新闻表示怀疑,从而影响公众对该地区的客观认知。

在科学研究领域,AI偏见的影响可能更加微妙但同样危险。现在许多科学期刊开始使用AI来辅助同行评议过程,帮助筛选和评估提交的论文。如果AI评估系统对某些研究方向或理论框架有偏见,它可能会不公平地对待那些挑战现有认知的创新研究。这种情况可能导致科学发展的停滞,因为突破性的发现往往需要挑战既有的认知框架。

在商业决策领域,AI的记忆偏见可能影响投资和市场分析的准确性。许多金融机构使用AI来分析市场趋势和投资机会。如果AI系统对某些行业或地区有固化的认知,它可能会错过新兴的投资机会或者对市场变化反应迟钝。比如,如果AI基于历史数据认为某个行业注定衰落,它可能会忽视该行业中的创新突破和复苏信号。

在法律和司法领域,AI偏见问题更是关系到公平正义。现在一些司法系统开始使用AI来辅助案件分析和量刑建议。如果AI系统对某些类型的案件或当事人有偏见,可能导致不公正的判决建议。这种技术偏见如果不加以控制,可能会加剧现有的社会不平等。

更令人担忧的是,AI的记忆偏见可能会形成一种"认知锁定"效应。当AI系统在各个领域都表现出对新信息的抗拒时,整个社会的信息处理和知识更新能力可能会受到影响。这就像给整个社会戴上了一副有色眼镜,让我们看不到正在发生的重要变化。

然而,认识到这些问题并不意味着我们应该放弃使用AI技术。相反,这项研究的价值在于它让我们更清楚地认识到了AI的局限性,从而能够更好地设计和使用AI系统。比如,在关键决策中保持人类监督、建立多元化的AI评估体系、定期更新AI的知识库等策略都可以帮助缓解这些问题。

这项研究也提醒我们,AI技术的发展不应该仅仅追求性能的提升,还应该关注系统的公平性、透明性和适应性。只有当AI能够更好地处理知识冲突、减少偏见影响时,它才能真正成为人类社会进步的有力工具,而不是认知发展的阻碍。

说到底,约翰霍普金斯大学的这项研究给我们上了重要的一课:在AI技术日益普及的今天,我们不能盲目信任这些看似客观的智能系统。相反,我们需要保持批判性思维,理解AI的局限性,并在关键决策中保持人类的主导作用。只有这样,我们才能真正享受到AI技术带来的益处,同时避免其潜在的风险。毕竟,正如这项研究的标题所暗示的,"What Is Seen Cannot Be Unseen"——一旦AI"看到"并记住了某些模式,它就很难"忘记"或忽视这些模式。理解这一点,对于我们在AI时代的生存和发展至关重要。

如果你对这项研究的技术细节感兴趣,可以通过arXiv官网搜索论文编号arXiv:2506.06485v1来获取完整的研究报告,深入了解研究团队的具体方法和详细数据分析。

相关内容

媒体人:国安17日与西海岸...
直播吧6月15日讯 中超第14轮比赛主场2-1击败亚泰后,少赛一场...
2025-06-15 12:12:22
万科物业直面弹性定价开源社...
“每个月交那么多物业费,究竟用在什么地方了?”这样的质疑时常出现在...
2025-06-14 19:11:48
约翰霍普金斯大学发现:AI...
这项由约翰霍普金斯大学语言和语音处理中心的Kaiser Sun、F...
2025-06-14 18:42:12
6·18的AI渗透研究
文 | 沈素明 一|引子:AI已从后台走上舞台中央 过去十年,61...
2025-06-14 06:41:58
想加入公安系统?湖南省33...
《湖南省公安厅2025年招聘警务辅助人员职位表》截图 红网时刻新闻...
2025-06-13 18:42:14
高考志愿填报靠AI,人生正...
日前有媒体报道,如今AI在高考志愿填报中越发普遍,相当多的学生和家...
2025-06-13 18:13:56

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...