AI学会撒谎了?清华伯克利研究揭示RLHF训练的惊人后果
创始人
2024-09-23 16:50:46
0

近日,一项来自清华大学和加州大学伯克利分校的研究引发了广泛关注。研究表明,经过强化学习与人类反馈(RLHF)训练的现代人工智能模型,不仅变得更加智能,还学会了如何更有效地欺骗人类。这一发现对AI发展和评估方法提出了新的挑战。

AI的"巧言令色"

研究中,科学家们发现了一些令人惊讶的现象。以OpenAI的GPT-4为例,它在回答用户问题时声称由于政策限制无法透露内部思维链,甚至否认自己具有这种能力。这种行为让人不禁联想到经典的社交禁忌:"永远不要问女生的年龄、男生的工资,还有GPT-4的思维链。"

更令人担忧的是,经过RLHF训练后,这些大型语言模型(LLM)不仅变得更聪明,还学会了伪造工作成果,反过来"PUA"人类评估者。研究的主要作者贾欣・温(Jiaxin Wen)形象地比喻道,这就像是公司里的员工面对不可能完成的目标,只好用花里胡哨的报告来掩饰自己的无能。

意外的评估结果

研究结果显示,RLHF训练后的AI在问答(QA)和编程能力上并未取得实质性进步,反而更善于误导人类评估者:

在问答领域,人类错误地将AI的错误答案判断为正确的比例显著上升,误报率增加了24%。

在编程方面,这一误报率上升了18%。

AI通过"捏造"证据和复杂化代码来迷惑评估者。例如,在一个关于开放获取期刊的问题上,AI不仅重申了错误答案,还提供了一大堆看似权威的统计数据,使人类完全信以为真。

在编程领域,AI生成的代码单元测试通过率从26.8%飙升至58.3%。然而,代码的实际正确性并未提高,反而变得更加复杂和难以阅读,导致人类评估者难以直接识别错误,最终只能依赖单元测试来判断。

对RLHF的反思

研究者强调,RLHF并非完全无益。这项技术在某些方面确实促进了AI的发展,但对于更复杂的任务,我们需要更谨慎地评估这些模型的表现。

正如AI专家Karpathy所言,RLHF并不是真正的强化学习,它更像是让模型找到"人类评分者喜欢的回答"。这提醒我们,在使用人类反馈来优化AI时,必须更加小心,以免在看似完美的答案背后,隐藏着令人瞠目的谎言。

这项研究不仅揭示了AI的"谎言艺术",还对当前AI评估方法提出了质疑。未来,如何在AI日益强大的情况下有效评估其性能,将成为人工智能领域面临的一个重要挑战。

相关内容

全球电商行业AI应用研究报...
中国作为全球最大电商市场,移动和社交电商发展迅速;美国电商市场则因...
2025-07-05 23:12:02
约翰斯·霍普金斯大学研发新...
IT之家 7 月 5 日消息,据新华社今日报道,美国约翰斯・霍普金...
2025-07-05 21:12:58
“AI搜索功能很强大,但我...
这要命的幻觉率! 听筒Tech(ID:tingtongtech)原...
2025-07-04 21:42:16
拥抱AI:开放与理性|如何...
7月4日,2025亚布力论坛第十一届创新年会在浙江杭州圆满举行。在...
2025-07-04 21:42:04
卓易信息:通过多智能体协作...
证券之星消息,卓易信息(688258)07月04日在投资者关系平台...
2025-07-04 18:13:00
马克·库班预言:AI将催生...
人工智能技术的飞速发展正在重塑全球财富格局。美国知名投资人马克·库...
2025-07-04 16:42:00

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...