方红庆|AI如何可信?
创始人
2025-05-15 20:48:14
0

作者简介|PROFILE

方红庆,上海财经大学哲学系教授。

摘要:可信AI是当前AI伦理的一个重要方向。然而,可信AI这个概念从一开始就充满争议,许多学者认为它过于拟人化,实际上是一个概念错误,并主张用可靠AI取而代之。为了应对这一挑战,本文将提出一种基于胜任力的可信AI观,主张只要能避免兑现并非基于其胜任力的承诺,一个AI就是可信的。根据这种观点,AI不仅是一种可靠的认知技术,而且是参与人类实践的准行动者。因此,它的道德角色具有他律和自主两种特征:在动机层面上,它是他律的;在技术层面上,它又是自主的。这一观点不要求意图、善意等心理因素,因此可以有效避免人类中心主义的批评。

关键词:可信AI;可靠AI;拟人化;承诺;胜任力

【本文引用格式】

方红庆.AI如何可信?[J].上海交通大学学报(哲学社会科学版),2025,33(04):55-67+90.

我们正在快速进入AI时代,特别是以ChaptGPT为代表的新一代生成式AI的横空出世,进一步加速了这一进程。可以预见,AI技术将深入地参与人类活动,成为人类日常生活中不可或缺的一部分,深刻地影响和改变着人类生活的方方面面。随着这一技术在政治、经济、社会和医疗等各个领域的大规模运用,它给人类社会带来的风险也进一步增大,因此,一系列亟待回答的问题逐渐浮上水面:AI是否可信?我们是否应该信任它?我们应该如何信任它?它在何种意义上是可信的?什么是可信AI?我们可以把这些问题统称为“可信AI问题”(Problems of Trustworthy AI)。解决“可信AI问题”是解决人工智能的“对齐问题”(The Alignment Problem)的关键一步。

当前AI信任研究大致可以分为两条路径:一条是社会学路径;另一条是技术路径。社会学路径主要致力于描述和理解人们分配信任的社会和心理的先决条件,聚焦于如何改善人们对AI的信任态度。马力诺(D. L. Marino)等指出,可信AI研究的主要目标是:识别影响人类对AI系统信任的因素;引入方法改进人类对AI系统的信任。社会学路径的问题在于,它默认我们应该信任AI,但没有具体阐明我们应该在何种意义上信任AI。与之不同,技术路径回归技术本身,致力于探究那些能够让人们分配信任的AI属性,如AI的可靠性指标、技术细节和认识论基础等。这条路径首先关心信任与可信性的关系,因为人们通常是在这种关系中分配信任给AI的,而可信性则是AI具有的某种属性。这条路径的支持者通常还会考虑透明性和可解释性。其中,可解释性是研究的重点。AI背后的关键技术是神经网络,而后者通常因其复杂性被视为一个黑箱,我们根本不可能完全理解它们。这就产生了一个困境,即如何让人们信任一个他们无法完全理解的东西?学界的一个主流解决方案是倡导可解释AI(XAI)。也就是说,AI要真正变得可信,必须在解释与信任之间建立稳固的联系。布兰科(S. Blanco)称之为“可解释性信任假设”(Explainability-Trust Hypothesis)。技术路径的问题在于,它能够很好地反映AI信任的技术本质,但无法反映AI所具有的智能特性。AI所具有的智能特性使得它超越了单纯技术领域,部分地进入人类智能领域。概言之,社会学路径和技术路径都存在各自的问题,前者把AI信任化归为社会信任的一种,没有真正讨论我们为什么要信任AI或AI为何以及如何可信的问题,而后者则忽视了AI具有的智能属性。事实上,这两条路径并没有穷尽其他可能性,人际信任(Interpersonal Trust)也同样适用于AI信任。随着AI智能水平的不断提升,也许最终只有人际信任模型才能真正揭示AI信任的发展趋势和未来形态。也许,这也是AI政策制定者和伦理学者选择用“可信”这个概念来描述和限定AI的根本原因。

本文结构如下:第一部分将简要介绍“可信AI”概念的提出背景及其引发的相关争议;第二部分反驳基于功能的AI可信观,指出它没有真正揭示可信AI的本质;第三部分重新反思我们应该如何理解AI,是把它视为一种单纯的认知技术,还是视为人类事务的积极参与者、决策者和行动者;基于上述思考,第四部分将论证基于胜任力的AI可信观,用人际信任模型来揭示可信AI的本质;第五部分通过区分可信AI与可靠AI,进一步完善基于胜任力的AI可信观;最后的结语部分简单总结全文。

一、“可信AI”概念的提出及其问题

可信AI是AI伦理研究的重中之重,标志性事件之一就是欧盟委员会人工智能高级专家组(High Level Expert Group on Artificial Intelligence, 简称AI HLEG)发布了《可信人工智能伦理指南》(Ethics Guidelines for Trustworthy AI)。美国和中国等其他国家也相继出台了类似文件,例如中国信息通信研究院与京东探索研究院于2021年7月9日联合发布了《可信人工智能白皮书》,并且每年持续更新。“可信AI”这个概念已经成为不同领域的政策制定者、技术专家、投资者和伦理学家们广泛使用的概念。

根据《可信人工智能伦理指南》,可信AI主要由三个部分组成:(1)合法性,即遵守一切适用的法律法规;(2)伦理性,即确保遵守伦理原则和价值;(3)强健性,即从技术和社会角度来看,AI系统不会导致无意图的伤害。该指南主要聚焦伦理性和强健性,为了实现这一目标,指南相应地提出了七个关键要求:(1)人类能动性和监督;(2)技术强健性和安全性;(3)隐私和数据治理;(4)透明性;(5)多样性,非歧视和公平;(6)环境和社会福祉;(7)问责。然而,这个指南没有深入分析可信AI到底意味着什么,没有解释为什么可信AI必须满足上述七个要求,而且过于产业导向,因此,遭遇了一些严厉的批评。大多数批评者都持有这样一种观点,即AI不能满足信任的某个特征,因此,它不是信任的对象。也就是说,批评者们认为“可信AI”概念可能犯了一种类型错误,即该概念被应用到了错误类型的对象上。布雷森(J. Bryson)认为信任关系只适用于同类之间,而AI与人类不是同类,并且AI不是问责的对象。苏厝普(M. Sutrop)认为信任是一种双向的沟通过程,而人与旨在完成特定任务的AI的沟通通常只是单向的。不过,她原则上认为信任有可能适用于类人AI。雷安(M. Ryan)查证了包括情感观、规范观和理性观在内的各种信任理论,他发现AI都无法满足这些信任的关键特征,例如AI无法被情感动机所驱动。因此,他最后得出结论说,AI不是这些信任的对象,并主张我们应该完全放弃“可信AI”范式,转而全面拥抱可靠AI路径。莱因哈特(K. Reinhardt)则指出,“我们面临着将可信性变成一个泛指所有一般被认为好的事物的风险”或“把可信性变成一个不能应用或无法操作的时髦用语”。除了上述概念层面的批评之外,另外还有一些现实和伦理维度的批评。最严厉的一种批评就是AI伦理中的道德洗白问题(The Issue of Ethics Washing)。批评者认为,《可信人工智能伦理指南》受行业利益的过度影响,导致其以公民社会的关注为代价,实施一种道德洗白。所谓道德洗白,指的是,通过道德语言化解批评和抵制政府监管,而不是真正致力于道德行为。概言之,道德洗白就是通过滥用或误用道德规范来阻碍必要法规的执行。在这个意义上,梅清格尔(T. Metzinger)说:“可信AI故事是行业发明的一种营销叙事,是未来客户的睡前故事”。

这些批评背后都预设了一种人类中心主义的信任观,并且都担心把AI过度拟人化,把人类的特征赋予一个非人的对象,导致信任或道德的泛化。正如弗雷曼(O. Freiman)所说:“我们面临的风险是,企业可能会认为,AI产品的负面结果可能是AI的责任和义务,而不是它们自己的责任和义务……在个人拟人和社会拟人这两种形式中,风险在于信任对象能否是一个道德行动者。这是信任错位,即信任错了对象。当我们错置信任,错误地将责任归于非道德主体时,与义务、问责和责任相关的社会结构就会被改变。技术背后的机构和人员——即那些设计、开发、使用、审计和维护AI系统的人员——并不是恰当的道德和法律审查对象。”然而,这种指责或担忧存在两个问题:(1)并非所有信任都是人类中心主义的;(2)AI的拟人化并不必然导致信任或道德的泛化。诚然,当代道德哲学中的信任概念确实存在人类中心主义的倾向,因为道德哲学家试图用信任来揭示现代道德哲学所忽视的那些亲子、夫妻、上下级等不对称关系所蕴含的道德意义。因此,他们特别强调信任与依赖之间的区别,前者指向人与人之间的关系,而后者则指向人与物之间的关系,并且试图用动机和情感等心理因素来解释两者之间的差别。作为最早的信任伦理倡导者,贝尔(A. Baier)就认为信任与依赖(Reliance)之间最大的差别是辜负信任和依赖失败之后的情感反应完全不同,前者的反应是愤怒,而后者最多是失望。尽管如此,越来越多的研究者开始倾向于弱化甚至消除信任的动机因素,因为存在大量不需要善意等动机的信任案例,例如信任一个法官时,你不需要相信他对你怀有善意,只需相信他会秉公执法就可以了。最为典型的去动机化的信任观是郝丽(K. Hawley)的承诺观(The Commitment Account)。去动机化的信任观更多地聚焦于信任者与被信任者之间的交互关系,而这就有可能适用于AI等非人存在。AI的拟人化特征是AI的应有之义,因为与其他认知技术一样,它首先是人类认知和智能的一个延展。但不仅如此,AI将在很多方面扩大和取代人类智能。作为AI发展的终极目标,通用人工智能实际上就是人类的一般智能。但这并不意味着AI就完全等同于人类,它的技术和工具属性依然是首要的,因此,也并不意味着信任或道德的泛化。不过,我们确实要兼顾AI的属人属性,也就是说,我们不能仅仅把它当成一个工具或手段,尤其是当AI越来越接近人类、与人类形成深厚和紧密的关系时。

概言之,尽管“可信AI”这个概念遭遇了诸多批评,但它具有可靠性、可解释性、负责任等其他概念所没有的独特优势。可信性是一个典型威廉姆斯意义上的厚实概念,不仅能够用于描述AI具有哪些可信的特征,同时还能赋予可信AI以价值和规范内涵。当然,上述的担忧和批评并非无的放矢,我们在阐明AI的可信性时一定要给出清晰的界定,并突出可信性与可靠性、可解释性或负责任等概念之间的分野和联系。

二、基于功能的AI可信观及其问题

在本节中,我们将批判性地考察西蒙妮(M. Simion)和科尔普(C. Kelp)提出的基于功能的AI可信观。他们认为,可信性就是一种履行我们义务的倾向,并可以推广到AI,关键是解释AI义务的来源。

AI具有一种以功能为基础的义务(Function- Based Obligation)。这种义务来源于设计功能,人造物首先是设计功能的载体,不同的设计功能源于不同设计者的意图。一个人造物的恰当功能(Proper Function)可以分为两类:一类是设计功能完全如设计者设计的那样正常发挥功能,称之为恰当的d-功能(Properly D Functioning);另一类是在正常条件下可靠地发挥的功能,称之为恰当的e-功能(Properly E Functioning)。e-功能已经蕴含在d-功能的顶层设计之中。因为在刀具发明之前切割的功能已经存在并且有益于我们的祖先,否则后人也不会想去发明能够实现切割功能的刀具。这种分类不仅指出了AI要遵循的两类规范,而且有助于说明为什么可信度有程度差异。具体刻画如下。

完全AI可信性归赋:对于所有x,其中x是一个AI,“x是可信的”在语境C是真的,当且仅当,对于所有Φ来说,x接近最大的可信性作Φ,接近到足以超越由C决定的可信度阈值。(x指代AI,Φ指代AI所做的具体行为,C指行为发生的语境。)

AI对Φ的最大可信性:对于所有x,其中x是一个AI,一个人就Φ而言是最大地可信的,当且仅当它拥有履行对Φ的最强义务。

AI对Φ的可信度:对于所有x,其中x是一个AI,x对Φ的可信度是一个与对Φ的最大可信性的距离函数:越接近对Φ的最大可信性,对Φ的可信度就越高。

基于功能的AI可信观有一系列的优点,其中最为重要的两点是:它显然是非人类中心的;它能够解决可信AI构成要求之解释充分性问题。首先,基于功能的AI可信观只诉诸功能性义务,没有诉诸AI心理学,也不要求AI具有意图或意志。所以,可以很好地摆脱人类中心论的指责。其次,基于功能的AI可信观能够充分解释可信AI为什么要满足上面所提及的那些要求。他们的解释主要运用了d-功能和e-功能的划分,基本思路如下:那些让AI变得可信的属性就是与其具有的一种源自功能的义务倾向相对应的特性。例如,AI应该是安全的、公正的、以人为本的和仁慈的,因为这意味着它们在溯因上(Etiologically)是恰当运作的,即以一种有助于解释它们持续存在的方式运作。与此同时,哪些因素让AI具有可信的属性也是一个语境问题,因为AI的义务源自e-功能,所以不同e-功能的AI可能会有不同的义务。例如可解释性对于诊疗AI就不是必须的,但它对征信AI可能就是必须的,因为如果不解释清楚为什么赋予某人某个征信分数会导致许多纠纷。

我们的批评主要针对两个方面:一个关于d-功能概念;另一个关于义务概念。西蒙妮和科尔普指出,d-功能与e-功能的区别关键在于,前者只取决于设计的意图,而后者关乎成功的历史。然而,d-功能概念非常可疑。脱离成功来谈论功能是件非常奇怪的事情,因为功能本身就意味实现某个目的,如果一种功能总是不能实现这个目的,那就谈不上是一种功能,就像一种止痛药如果完全无法止痛,我们还能称之为止痛药吗?因此,不存在纯粹基于设计意图的功能评价,任何功能评价都要根据功能实现之结果来评价。不管这个结果是人为设计的,还是自然演化的,是直接的,还是间接的。在笔者看来,设计计划是一种承诺,代表着设计者的意图,而西蒙妮和科尔普完全把这种意图纳入功能概念之中,导致意图等动机因素不再直接用于可信AI的刻画,使得后续的道德责任追溯遭遇困难。为此,我们倡导更带有意图意味的承诺观来刻画可信AI,但部分吸取基于功能的AI可信观的合理因素,即把功能的概念融入胜任力(Competence)之中。

西蒙妮和科尔普把可信性定义为一种履行义务的倾向。然而,义务概念容易让人想起康德,并与自由意志联系在一起。西蒙妮和科尔普也没有对“源自功能的义务”(Functionally Sourced Obligation)给出清楚的解释。一种可能的解释就是,功能要求必须做的事情,即一个AI如果是可信的(即离Φ不是太远),它需要做到功能所要求的最基本的事情。不过,这样来定义AI的可信性可能会面临两个问题:一是限定过窄,与可靠性没有差别,二是犯了自然主义谬误。希尔斯(A. Hills)坚持认为可信性是一种责任,而不仅仅是一种避免无法兑现的承诺或履行义务的倾向。一个会履行义务的行动者是负责任的行动者,一个负责任的行动者通常也会履行义务。但两者并不完全等价,一个行动者可以通过额外的行为来展现责任,例如主动帮助那些没有向他求助的人。可信的人会更有弹性和敏感地回应情境,其中道德理由可能隐而不显,不足以激发道德义务。当面对一个落水儿童时,一个可信的人会作出好的决策,这些决策可能远超道德义务的范围。

类似地,一个可信AI可能不仅应该具有履行义务的倾向,而且还应该包含更多的东西。可信AI应该更有弹性和敏感地回应情境。试想两款办公软件,一款是AI赋能的,不仅能够编辑文字和表格,而且能够给予智能校对和润色功能;另一款同样是AI赋能的,能够编辑文章和表格并智能校对,但没有润色功能。假设智能校对是AI赋能办公软件的基本功能,而润色只是额外的功能。那么,请问哪一款办公软件更可信?显然,作为一款AI赋能的办公软件,润色功能是可设想实现的功能之一,但很多软件公司还没有研发完成。因此,可以说,第一款办公软件更可信,因为它不仅做到了需要做的事情,还做到了不需要做的事情,并通过后一行为展现了更为可信的品质。然而,按照西蒙妮和科尔普的方案,这些超额完成的功能与可信性无关,因此,它们并不会影响该款办公软件的可信性。那么,上述可信性差异的直觉是怎么来的呢?

另一个问题是,从功能出发的义务概念可能犯了摩尔的自然主义谬误。从AI具有某种溯因功能和设计功能的事实推导不出AI为什么有义务实现这些功能并遵循相关规范。这可能涉及AI的认知和道德地位的关键,尤其是在AI与人的比较维度来看。对于人来说,我们谈论“应该”非常自然,因为人是一个具有能动性的道德主体;但对于AI来说,我们谈论“应该”就非常不自然,因为AI不是一个具有能动性的道德主体。这就要求我们回到更为根本和关键的问题:AI是一种什么样的存在?我们应该如何理解和信任AI?

三、我们应该如何理解和信任AI?

我们到底应该对AI采取什么样的信任态度?这要求我们首先弄清楚AI的本质,或者更准确地来说,弄清楚AI的什么属性让它变得可信?当前AI信任研究的一个主要分歧是:AI到底是一种单纯的认知技术,还是一种准人类行动者?如果是前者,那么我们只需要投以单纯的认知信任或者根本否定信任之于AI的适用性;如果是后者,那么除了认知信任之外,我们就需要严肃思考是否还应该给予道德信任。

阿尔法罗多(R. Alvarado)坚持认为,AI是一种单纯的认知技术。首先,它是一种服务于认知目的的技术。例如,作为AI核心的机器学习就是一种被设计用于分析数据的方法。深度神经网络则是一个多层信息过滤器,帮助提高数据分析的效率和准确度。总体来说,AI是一种专门设计和发展用于实现某些认知任务的工具。这些任务在内容、材料和运作上都是认知的。其次,它是一种能够提升我们认知能力的技术。与计算器等其他认知技术不同,AI技术不仅增加了我们获得知识的能力,而且增强了我们处理命题和符号等认知内容的能力。也就是说,它们不再仅仅是一种认知辅助,而是一种帮助人类突破认知限度的技术。最后,它是一种掌控认知内容的技术。作为一种认知技术,AI技术的独特之处在于,它通过认知算法来掌控认知内容。例如,ChatGPT就是一种内容生成式的嵌入性工具,通过逻辑、推理、统计和预测等认知运作生成新的认知内容。由此,他认为我们应该对AI采取一种认知信任。他是在威尔霍特(T. Wilholt)意义上使用认知信任:“‘认知信任’通常被用于科学的社会知识论之中。认知信任似乎是一种特殊类型的信任。我们可能信任研究毒蛇的科学家会把他们的研究对象安全隔离,但这不是我们所意味的认知信任。对某人投以认知信任就是信任他作为信息提供者的能力。”

在阿尔法罗多看来,当我们信任AI时,我们主要是信任它是一个知识来源:我们信任它们掌控视觉输入和命题结构等认知内容;我们信任它们对这些内容进行分析、推论和预测等认知运算;最后,我们信任它是科学探究、经济决策等认知语境的辅助。相反,我们并不信任阿司匹林提供信息,预测统计趋势或为我们提供决策。这同样适用于自动驾驶的汽车。尽管人们有时能够在这些方面被信任,但不是所有人际关系信任因接受者的认知能力而被分配,即便假定了某些认知能力。

无疑,阿尔法罗多正确地区分了信息提供者和信息源,解释了AI作为信息提供者的角色。但他依然没有把它真正视为一个认知者,即知识内容的创造者和生产者。在笔者看来,既然他承认AI已经具备分析、推论和预测的能力,并且能够通过这些能力掌控认知内容,我们就应该把它视为一个真正的认知者,并投以信任。也就是说,阿尔法罗多的信任忽视了信任的交互性(Reciprocity),信任本质上是一种信任者和被信任者之间的交互关系。这种交互关系的核心是信息内容的交互。而要真正揭示这种交互关系,我们最好回到人际信任模型。顺便说一句,当前AI信任研究几乎清一色是单边模型,只把AI当成信任投射的被动对象。

阿尔法罗多明确反对把人际信任运用于人与AI之间。他的理由主要是人际信任主要考虑的是动机和意图,而这种动机和意图很难从AI的设计者和制造者传递到AI本身。雷安观点也类似。由于AI缺乏情绪状态而不适用人际信任,而唯一使用的理性信任观则根本算不上是一种信任,只能算是一种依赖。这种观点的问题在于,它过于狭隘地理解人际信任的本质。诚然,许多学者主张信任必须包含一种善意或期待,但这些动机论者很难同时解释信任与不信任(Distrust),因为两者之间存在既非信任也非不信任的空间或情况。按照善意动机观,信任包含善意,不信任就应该包含善意的缺乏或恶意。但善意的缺乏或恶意不是不信任的必要条件。例如,我的同事没有帮我带午餐,我不能因此不信任他,因为他没有义务这么做,也不能表明他是不值得信任的。善意的缺乏或恶意也不是不信任的充分条件。假设有个公正的法官跟我有深仇大恨,要把我绳之以法。如果我真的违法犯罪了,我当然没有理由信任他,但也没有根据不信任他。因此,即使他对我有恶意,也不代表他是不值得信任的。这表明,动机观太过狭隘,不足以真正刻画信任和不信任的本质。

由此,不少学者开始放弃动机观,转向非动机观,如郝丽的承诺观和卡特(J. Adam Carter)的表现观(The Performance Account)。郝丽认为,信任某人会做某事就是相信他承诺这么做,并且依赖于他会兑现承诺。相应地,不信任某人会做某事就是相信他承诺这么做,但不依赖他会兑现承诺。郝丽强调,她的承诺概念是非常宽泛的,可以是内隐的或外显的,可以是重要的或琐碎的,也可以是角色和外部环境赋予的,可以是默认的或获得的,也可以是受欢迎的或不受欢迎的,等等。卡特更进一步,彻底放弃了根据动机、信念、意动、情感等心理态度来理解信任的路径,也就是说,他不再把信任视为一种心理状态,而是把信任视为一种行为或表现。在他看来,信任是一种表现类(Performative Kind),因此信任的评价规范性是一般表现的评价规范性的特例。不管是承诺观还是表现观,它们共同的基础是把信任关系视为一种参与关系。从参与的角度,一个行动者是社会的认知和道德实践的参与者,相应地,行动者的可信性是根据参与的表现来评价的。作为人类认知和智能的延展,AI将成为人类实践的重要参与者,因此,它的可信性完全可以从参与者的角度来评价。也就是说,我们完全可以把人际信任观用于AI的可信性评估。

综上所述,AI是一种我们有意设计、发展和制造的认知技术。一方面,它区别于其他技术,不仅能够提高我们创造和增加知识的能力,而且本身自主地掌控了知识创造和生产的过程。另一方面,它区别于人类认知者,本身没有动机和意图。在这个意义上,AI是一种“认知技术+”,一种“准人类行动者”。由此,人与AI的信任关系不仅是一种认知关系,而且也是一种道德关系。我们应从人际信任角度来理解这种关系。

四、基于胜任力的AI可信观

如上所述,我们应用人际信任模型来解释人与AI之间的信任关系,如此才能揭示AI作为准人类认知者的规范身份。郝丽的承诺观由于摆脱了传统动机观的束缚似乎能够更好地适用于AI信任,我们将在承诺观基础上发展一种基于胜任力的AI可信观。

郝丽是在一种非常消极的意义上来理解可信性的。在她看来,可信的人就是要确保承诺与行动的匹配,避免作出无法兑现的承诺。因此,可信性首先是一个避免不可信任的问题,人们可以通过遵守现有的承诺来避免不可信任,但也可以首先避免某些承诺。可信性并不要求被信任者承担自己能力之内尽可能多的承诺,或作出某些承诺而不是其他承诺,除非这些承诺是由我们现有承诺产生的。它只要求被信任者避免无法兑现的承诺。在笔者看来,这种消极的可信性概念可以推广到AI:一个可信的人,在承诺已经作出时就要积极兑现承诺,而在作出新的承诺时则要三思后行;类似地,一个可信的AI,在设计完成之后就要能够实现其设计意图,而在其设计之初则要三思而行。AI设计必须进行充分的伦理审查,并且进行系统的验证和评估。

当然,AI不会像人类那样作出有意承诺,但它的设计功能实际上也可以理解为一种“承诺”。一台自动驾驶的汽车“承诺”了无需人的辅助就能完成驾驶任务;一款AI翻译软件“承诺”了能够智能地完成翻译任务;一个AI管家“承诺”了能够做好家政服务工作。相应地,如果这些设备或软件不能够“兑现”这些“承诺”,那么我们就可以说它们是不可信的。西蒙妮和科尔普把这种承诺称为“源自设计的承诺”(Design-Sourced Commitments)。他们认为,这种承诺解释会遭遇坏设计问题(Problem of Bad Design):

假设我的癌症诊疗AI有一个设计缺陷,导致它不能识别最简单的常见肿瘤,但这并不免除它被认为能够识别常见肿瘤的责任。然而,根据我们现在考虑的承诺观,AI承诺是以设计计划为根据的,那我的癌症诊疗AI将像其他拥有识别常见肿瘤能力的诊疗AI一样可信:毕竟,两个AI都是根据它们的设计工作,因此都兑现了它们源自设计的承诺。

西蒙妮和科尔普认为郝丽可能会援引元承诺(Meta-Commitment)概念来回应这一问题。这种回应的核心是,除了直接承担的承诺之外,AI间接承担了一种其所属类型AI的元承诺,即癌症诊疗类AI都应该具有识别简单肿瘤的能力。但他们认为这种回应不会成功,因为无法追溯这些元承诺的源头:“它们似乎是由AI作为某类‘癌症诊疗AI’的成员触发的,而我们是从源自设计特性的AI承诺开始的。所以,这些元承诺也应该源自与我的AI相关的那类设计计划‘癌症诊疗AI类’。然而,问题在于,根本不存在与这类AI相关的可识别的设计计划,特殊的人造物和特殊类型的人造物伴随着设计计划,但一般类型的人造物并没有设计计划。如果是这样,承诺观根本没有解释承诺是什么。由于这些承诺属于一个特定类型,它们应该在场。”

然而,西蒙妮和科尔普并没有真正理解承诺观的核心。除了承诺本身之外,承诺观的核心还有胜任力(Competence),即胜任地(不)给出和兑现承诺的能力或倾向:“可信性要求我们只在有能力履行这些承诺的情况下作出承诺。有时候,我们可以控制自己所承担的承诺。有时候,我们可以控制自己的能力,一方面我们可以学习新的技能,另一方面我们可以适应环境,而不仅限于通过管理我们所承担的承诺。因此,在某一领域内,获得可信性的方法可能不止一种,且与大大小小的能力和承诺相兼容,只要后者不超过前者就行。”概言之,在评估可信性时必须把承诺与胜任力视为一个整体。胜任力与承诺构成了一个有机的整体,胜任力构成了承诺的限度,承诺的给出、规避与兑现展示了胜任力并以此为限。一台AI具有设计缺陷,说明它的胜任力的最内在部分就已经遭遇了破坏,因此也就丧失了兑现承诺的能力。因此,坏设计问题根本不会对郝丽的承诺观构成威胁。当我们回到郝丽承诺观的原初语境,而不是AI语境,问题就会更为明显。坏设计问题脱胎于坏承诺问题。科尔普和西蒙妮在另一篇文章中提出了这个问题:设想一种情况,AI承诺总是撒谎。显然,在断言方面,它是不可信的。与此同时,它可能完美地履行它关于断言的承诺。问题在于,相关的承诺是糟糕的。从郝丽的角度来看,AI让自己陷入了逻辑自毁的境地,已经充分表明它没有能力给出明智的承诺。

事实上,西蒙妮和科尔普误解了郝丽援引元承诺概念的初衷。郝丽引入元承诺是用来处理亲密关系。对于亲密关系来说,承诺观显然过弱了,恪守承诺远远算不上是可信的。在一段亲密关系中,我们经常会承担比一般关系更多的承诺。拒绝朋友的学术会议邀请远比拒绝陌生人的学术会议邀请更困难,其中就包含了朋友之间默认的、不言自明的隐性承诺,如相互支持的承诺。郝丽把这种承诺称为元承诺。事实上,元承诺概念还包含信任和可信性的关系或社会维度。元承诺源自一些特殊的关系,或是一段亲密关系,或是扮演某种社会角色。AI承诺也包含类似的元承诺,如“文心一言”作为处理自然语言的大语言模型中的一员,应该具备与GPT-4等同类产品近似的能力,否则就会有欺骗消费者之嫌。这种指责的根据大概就是这类元承诺,要求它至少做到不要犯过多低级的常识错误。更重要的是,作为处理自然语言的大语言模型,不管是“文心一言”还是ChatGPT,都应该具有基本的自然语言常识。

最后,回到西蒙妮和科尔普的基于功能的义务观。他们认为这种观点具有两大优势:一是能够在可靠性与可信性之间作出区分;二是能够为可信AI的要求清单提供理论原则。义务观给出的解释是,那些让AI可信的属性正是那些让AI具有履行义务倾向的属性。同样,基于承诺的AI可信观可以说,那些让AI可信的属性正是那些让AI具备兑现承诺倾向的属性。具体来说,它包含两个方面:AI在设计之初就包含了设计意图,这些意图可以把公正、人本和仁慈等道德原则植入其中,构成AI承诺的一部分。而从胜任力角度,它能够很好地解释和保障安全性、透明性、可解释性和鲁棒性等要素。对于胜任力来说,只要它是稳定的和可靠的,那么它就能够保障安全性和鲁棒性。胜任力是“一种成功行动的可靠能力”,而它的可靠性评估主要依据其产生的结果或外在表现。因此,当我们评价AI的胜任力,不需要去深入审查构成AI胜任力的各个要素及其内部机制,而只需审查它的表现及其结果,并根据这些表现和结果进行调教。在这个意义上,AI在胜任力方面是透明的和可解释的。

综上所述,AI要可信,它必须避免无法兑现的承诺。也就是说,它如果按照其设计者的功能设计发挥正常功能,我们就可以把AI视为可信的。而且,这种可信不仅是认知上的,而且还是道德上的。因为AI在设计之初就要求遵守严格的道德准则,例如数据采集的过程中要求去标识化以尊重隐私。当然,这只是源头的限制,AI要真正实现道德上可信,还要充分考虑其应用的后果反馈,特别是考虑AI对人类道德主体性及其行为的深刻影响。

五、不需要可信AI,可靠AI就足够了?

在本节中,我们将通过回应对可信AI 的最主要的一种批评,借此进一步阐明和完善我们的基于胜任力的AI 可信观。当代信任研究的普遍共识是,可信性不是单纯的可靠性,而是可靠性+额外因素X(如善意、情感或德性等)。更为关键的一点是,这些额外因素提供了信任和可信性独特的规范内涵,并使之区别于单纯依赖和单纯可靠性。然而,当代不少学者认为,可信AI根本就是一个概念错误,可靠AI就足够了。最典型的代表是雷安、杜许(J. Dorsch)和德饶(O. Deroy)。

雷安的主要工作是证明现行的许多信任概念都不适用于AI,并建议用可靠AI替代可信AI。因此,他并没有正面阐明可靠性何以在规范上足以约束AI,这项工作主要是由杜许和德饶完成的。在他们看来,AI是一种预测机器,只要求可靠性就足够了。只不过,这里的可靠性包含两个维度:一是预测的一阶可靠性,二是监测和校准预测的二阶可靠性。他们的基本思路是:先给出可靠性的规范条件,然后引入与可靠性相匹配的最小能动性概念,而要满足这些规范条件,AI需要发展一种准元认知机制(Quasi-Metacognitive Machines)。接下来,我们将逐一对可靠性、最小能动性以及准-元认知机制这三个概念进行阐述,并说明它们之间的关系。首先,可靠性。这个概念主要源自戈德曼(A. Goldman):“一种认知机制或过程是可靠的,如果它不仅在实际情境中产生真信念,而且在相关反事实情境中……也产生真信念。”杜许和德饶把这个定义直接应用到行动者:如果一个行动者不仅倾向于在实际情境中完成一项任务是成功的,而且也倾向于在相关反事实情境中也是成功的,那么他在完成这项任务时是可靠的。在这个意义上,他们把可靠性视为一种一致胜任力(Consistent Competence),即在过去、未来和相关反事实情境中都胜任的能力。其次,最小能动性概念。所谓最小能动性就是一个AI要成为一个行动者所需要的能动性。在杜许和德饶看来,一个AI的能动性只在于能够用来处理“多对多问题”(Many-Many Problems),也就是说,当一个AI面对着多个需要采取行动的输入和多个需要采取行动的输出,那么,在这个意义上,“能动性意味着拥有通过监视输入和输出并控制谁与谁配对的方式解决这些问题”。最后,准-元认知机制。根据上述的可靠性定义,AI需要具备五种能力:第一,将其决策作为输入进行处理的能力,否则,它将无法监控其决策以确保表现一致性;第二,发展一个关于其决策的内部模型,以便能够控制其表现;第三,需要一个比较函数,将表现与内部模型进行对比,以确定决策是否保持一致;第四,通过比较函数评估绩效的能力,这将作为AI控制行为的手段;第五,处理绩效评估作为输入的能力,以便利用评估信息更新内部模型,从而优化未来的表现。

杜许和德饶的方案是富有洞见的,我们非常认同他们的胜任力框架,因为这与我们的承诺框架存在异曲同工之妙,特别是他们的准元认知机制能够帮助我们丰富对胜任力的理解。一个AI是可信的,如果它避免兑现并非基于它的胜任力的承诺。不过,我们不赞同他们完全取消AI设计意图之中所包含的承诺因素在AI评价中的地位,这些因素与AI的胜任力之间息息相关。一款AI产品总是在设计时包含了设计意图,并且要避免违反伦理原则和规范,然后寻找工程上的实现路径。这些实现意图的机制就构成了AI的胜任力。我们在评价胜任力时虽然不用诉诸这些机制,但它们是我们理解胜任力发挥作用的必要条件。保留承诺因素的一个好处就是,可以回应AI拟人化指责,进而避免错误的责任归属问题,因为AI所包含的承诺并非AI自主意识的产物,而是设计师及其背后的机构的意志产物。

在笔者看来,杜许和德饶最大的问题是持有一个过分严苛的可信性概念。他们试图据此构建这样一种两难困境:要么可信性可以还原为可靠性,即可信AI实际上就是可靠AI,要么AI达不到可信性要求,因此不存在可信AI,存在的只有可靠AI。杜许和德饶意义上的道德可信性要求道德理性,而道德理性不仅要求规则获取和遵守的能力,而且还要求一种对道德规范的敏感性。他们援引吉巴德(A. Gibbard)观点,主张一个能够充分展示规范行为的行动者应该具备两个独特的认知系统,即情绪系统和概念系统。AI根本不具有情绪系统和概念系统,因此,它根本不可能在道德上可信。然而,上文已经讲过,当代可信性研究的趋势是去动机化的,不要求有情绪性的动机因素。不仅如此,可信性也不要求过分的理性化,只需最低限度的理性,即给出合理承诺或避免不合理承诺。这种理性不需要复杂的概念系统,甚至动物都拥有它们。

那么,我们应该如何理解可信AI的伦理蕴含呢?在笔者看来,道德物化概念可能是用来解释可信AI道德蕴含的最佳方案。当代技术伦理学有一个明显的趋势就是试图将技术道德化,也就是说,赋予技术道德行动者的身份。技术道德化的先驱之一拉图尔(B. Latour)试图把能动性赋予技术。在他看来,人类和非人类都能够是行动者,后者能够通过影响道德行动而具有道德性。技术本身并不具有道德能动性,但当人类使用技术时,随之而来的道德能动性就不完全是人类的,而是深深地融入了非人类的因素。也就是说,技术的能动性蕴含在它与其他能动者的关系之中。沿着拉图尔的思路,维贝克(Peter-Paul Verbeek)强调技术的道德调节(Moral Mediation)作用,并由此发展了一种道德调节性主体的概念。在他看来,技术是一个道德调节者,调节者的观念既表达了主动的技术的道德角色,也表达了这种道德角色的关系性特征:它们调节,而不是某种中性的“中介”,但调节者仅在环境允许的语境下才发挥作用。根据道德调节的观点,可信AI既不是一种单纯的道德工具,也不是一种完全的道德行动者,只有在它们的功能发挥作用的实践语境下,它们的道德角色才出现。有时这些角色与其设计者的意向相一致,有时并不一致。无论如何,技术的道德角色在它们与使用者的关系语境以及它们发挥作用的环境语境下产生。

结 语

可信AI到底意味着什么呢?上述研究表明,可信AI是一个具有知识论和伦理学双重内涵的合成概念。因此,阐明可信AI这一概念时,必须能够同时揭示这两个维度的内涵。事实上,所谓可信AI的七大要求可以分为两部分:一部分是知识论的,即透明性和可解释性;一部分是伦理学的,即公平、安全、隐私、福祉和问责。这就是可靠AI不能取代可信AI的根本所在。

正是基于这一特性,基于胜任力的AI可信观试图阐明:在承诺层面上,AI必须是可信的。AI本身不具有意图,但它作为人类设计的产物,浸透着人类的种种意图和目的。因此,必须把价值和规范原则内化在AI设计之中,使之成为AI“承诺”的一部分。在胜任力层面上,AI必须是可信的。AI是一种能够自主运行的技术,能够自主地分析和评估环境,并采取行动。因此,必须在实际运用的过程中不断进行评估、反馈、优化和改进,以期AI能够以最佳表现实现人类之意图并创造福祉。最后,承诺和胜任力并不是孤立的,而是应该视为一个相互规定的有机整体,AI也必须在这一意义上是可信的。可信性不是AI的全部,就像可信性不能涵盖所有人类品质或美德一样,可靠AI、可解释AI和负责任AI等概念同样重要。

诚然,不管是欧盟的《可信人工智能伦理指南》,还是国内的《可信人工智能白皮书》,它们都过于产业导向,缺少必要的伦理检视和反思。不过,值得庆幸的是,AI的发展和应用依然还处于初级阶段,也还没有真正大规模落地到产业之中,现在进行这些检视和反思为时未晚。最后,笔者提出两点建议或期许:1. 如果AI产业化已经势不可挡,我们希望伦理不要沦为可有可无的装饰品;2. 未来AI治理和监管的重心要放在价值和规范原则的内化程度和实现路径上。

原文《AI如何可信? 》刊于《上海交通大学学报(哲学社会科学版)》2025年第4期(第55-67页)。若下载原文请点击:https://kns.cnki.net/kcms2/article/abstract?v=m17bUIR54SM1cJlQaDPx3_FThDQW1JxnpYD4KKC9EnQdaUAkRzoiOrSHIebE_IR2DhahRJQ4j881Pc6ZYRQYls4VhJ27-2dgHGsWMuBkyIqoYaNTRvM5jq-pGtFyKjDGdd-MDD9d_FPzfXjfu_xGPrLNnwnk7sQoYm35RMlEQi_IoL7ys5WnoQ==&uniplatform=NZKPT&language=CHS

相关内容

年内暴跌19.14%,同类...
本报(chinatimes.net.cn)记者叶青 见习记者 栗鹏...
2025-05-15 22:19:13
方红庆|AI如何可信?
作者简介|PROFILE 方红庆,上海财经大学哲学系教授。 摘要:...
2025-05-15 20:48:14
原创 ...
近日,中美两国在芬太尼话题上再度交锋,显然双方对于如何应对这场严重...
2025-05-15 19:16:57
吉林省首家AI数字创新基地...
央广网长春5月15日消息(记者刘雨晴)为加快推进数字乡村建设,积极...
2025-05-15 07:19:12
佳都科技成立新公司,含多项...
企查查APP显示,近日,深圳市佳都智通科技有限公司成立,法定代表人...
2025-05-14 20:19:48
手机AI技术难投入大,谁敢...
2024年被称为AI手机的元年,手机厂商纷纷发力相关功能应用。而普...
2025-05-14 20:18:18

热门资讯

原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
支持 AI 扩图,华为 Pur... 2024-07-28 09:05:02作者:姚立伟 华为Pura 70 Pro手机今日推出鸿蒙Ha...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
吞噬星空维妮娜美图/高清壁纸/... 国漫女神|《吞噬星空》维妮娜美图/高清壁纸/AI手机壁纸/无水印 国漫女神|《吞噬星空》维妮娜美图...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 商... 最近,各家的AI 9笔记本开始陆续登场,其实大家并不一定非选AI 9 HX 370,主要是这颗CPU...
AI智能+高效清洁!萤石RS2... 目前扫拖机器人市场的竞争非常激烈,在上下水扫拖一体机市场也出现了很多所谓的创新产品。但是对于这些产品...