新V观海外:Anthropic警示AI破坏力
创始人
2024-10-23 19:00:56
0

陈沛/文 在OpenAI积极转型营利机构加速AI应用落地的同时,被视为OpenAI主要竞争对手的Anthropic新发布了一篇AI破坏力的报告,继续引领AI安全对齐研究的前沿风向。

Anthropic提出未来AI四类安全风险

Anthropic这篇名为《前沿模型破坏能力风险评估》报告提出,目前AI安全研究主要聚焦限制恶意用途,而随着未来AI能力将超过人类,也要提前研究AI主动破坏风险。

Anthropic具体研究了四类风险:通过安全可靠的方式误导人类决策、在系统中插入难以发现的错误代码、接受安全测试时故意隐藏危险能力、破坏人类建立的AI安全风险监测系统。

Anthropic也对这四种风险分别提出了评估场景、测试步骤、风险阈值、分析结果和发展展望,并对自家Claude-3-Opus、Claude-3.5-Sonnet模型做了评估。

评估结果是目前模型的破坏风险可控,但随着未来模型能力提升,提前研究更强力的应对措施完全是有必要的。

Anthropic的安全理念正吸引更多AI人才

Anthropic自2021年由Dario Amodei、Daniela Amodei等前OpenAI研究负责人创立。他们在OpenAI期间积累了丰富的深度学习、自然语言处理、AI安全研究经验,但在AI安全和可解释性方面理念不同,因此离开OpenAI自立门户。

Anthropic公司名字直接体现了以人为中心的理念,更强调构建可解释、安全可靠的AI系统,增强人们对AI的信任。

特别是去年OpenAI宣布由前首席科学家Ilya Sutskever和团队负责人Jan Leike牵头超级对齐研究后,立刻吸引大量关注。不过后来发生宫斗,OpenAI超级对齐负责人Jan Leike宣布加入更重视安全的Anthropic。近期选择加入Anthropic的还有OpenAI联合创始人John Schulman等。

这些高层加入让Anthropic实力大增,也表明Anthropic的安全理念开始获得回应,延续超级对齐研究。

对未来超级智能的安全风险尚未形成共识

虽然Anthropic对AI可解释性的探索可能对AI发展产生深远影响,但目前来看,如何看待AI风险还远没有形成共识。

例如图灵奖得主、Meta首席AI科学家Yann LeCun最近表示,对AI可能威胁人类生存的担忧完全是胡说八道。

此外,长期以来AI从业者中也有一种观点,认为AI公司过分强调技术危险性是为了凸显技术能力,以便在融资时获得更高估值。

这些观点与Anthropic的安全对齐研究其实不矛盾。因为安全对齐是假设未来超级智能出现,以此预测未来的未知风险,并站在今天的角度从底层开始分析和提前预防,因此很难直接下定论。

至少Anthropic的安全研究对我们能起到警示作用。在这次发布报告的结尾,Anthropic指出,在AI工具默认会帮助人类的情况下,人类用户很难对AI提供的建议产生合理怀疑。而这一点在接下来AI智能体应用开发过程中,如果不严加管理和高度对齐,必将会引发新的安全风险隐患。

相关内容

人大主办!全球青年科学家共...
智东西 作者 | ZeR0 编辑 | 漠影 智东西5月31日报道,...
2026-06-20 12:53:20
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
黄仁勋:AI时代无需过度纠...
正值高校毕业季,AI技术的快速迭代让不少毕业生对就业前景倍感焦虑,...
2026-06-01 00:43:12
仁宝电脑与GMI Clou...
(全球TMT2026年5月28日讯)5月28日,仁宝电脑宣布,与美...
2026-05-28 21:09:59
想让孩子学 AI 编程,又...
我家大宝今年8岁,他在学校已经在学用某包、某梦这些AI工具了。这一...
2026-05-27 21:40:56
支付宝宣布完成 3 亿笔 ...
5月26日消息,支付宝宣布已完成3亿笔AI付,并发布AI钱包和To...
2026-05-27 21:28:22

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...