谷歌 DeepMind 展示 GenRM 技术，提升生成式 AI 推理能力_linux资讯_linux办公网

谷歌 DeepMind 展示 GenRM 技术，提升生成式 AI 推理能力

创始人

2024-09-03 07:51:01

0次

IT之家 9 月 3 日消息，谷歌 DeepMind 团队于 8 月 27 日在 arxiv 上发表论文，介绍展示了 GenRM 生成式验证器，创造性提出奖励模型，从而提升生成式 AI 推理能力。

AI 行业内，目前提高大语言模型（LLMs）的主流做法就是 Best-of-N 模式，即由 LLM 生成的 N 个候选解决方案由验证器进行排序，并选出最佳方案。

这种基于 LLM 的验证器通常被训练成判别分类器来为解决方案打分，但它们无法利用预训练 LLMs 的文本生成能力。

DeepMind 团队为了克服这个局限性，尝试使用下一个token 预测目标来训练验证器，同时进行验证和解决方案生成。

DeepMind 团队这种生成式验证器（GenRM），相比较传统验证器，主要包含以下优点：

无缝集成指令调整
支持思维链推理
通过多数投票利用额外的推理时间计算

在算法和小学数学推理任务中使用基于 Gemma 的验证器时，GenRM 的性能优于判别式验证器和 LLM-as-a-Judge 验证器，在使用 Best-of-N 解决问题的百分比上提高了 16-64%。

据 Google DeepMind 报道，GenRM 相对于分类奖励模型的边标志着人工智能奖励系统的关键演化，特别是在其容量方面，以防止新模型学成到的欺诈行为。这一进步突出表明，迫切需要完善奖励模型，使人工智能输出与社会责任标准保持一致。

IT之家附上参考地址

分类器奖励推理解决方案 DeepMind 技术团队模型训练 GenRM 谷歌验证器 Best

上一篇：清华系AI算力公司获5亿融资

下一篇：AI眼中的中国｜一组海报，回顾八闽大地红色峥嵘岁月

相关内容

AI监管松绑！报道：美国放...

美国政府与人工智能公司Anthropic之间的监管对峙出现转机，但...

2026-06-27 08:55:32

字节与Anthropic打...

文 | 最话FunTalk，作者 | 林书，编辑 | 刘宇翔 6...

2026-06-26 22:40:47

在Soul App，他们一...

1980年，英国技术哲学家大卫·科林格里奇在《技术的社会控制》中...

2026-06-26 22:39:24

首个开源鸿蒙机器人操作系统...

6月26日，M-Robots开源社区在2026开放原子开源生态大会...

2026-06-26 22:36:34

曹操出行牵手上海人工智能研...

观点网讯：6月25日，曹操出行与上海人工智能研究院达成战略合作，正...

2026-06-26 18:44:30

SIGCOMM 2026 ...

论文作者均来自北京大学王选计算机研究所，第一作者为吴将凯博士，第二...

2026-06-26 18:43:57

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯（记者魏蔚）9月20日，阿里云无影AI云电脑在2024云栖大会上展出，该版本基于最新的终端...

MWC2025荣耀多款AI技术... 人民财讯3月6日电，2025世界移动通信大会（MWC 2025）上，荣耀MagicBook Pro ...

原创 2... #春日生活好物种草季#近年来，笔记本电脑市场迎来技术爆发期，尤其在手机厂商跨界入局后，轻薄本在性能、...

摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息，摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...

摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息，作为国产GPU的杰出代表，摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...

微软 Azure AI 语音服... IT之家 8 月 23 日消息，微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...

谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息，谷歌于 8 月 27 日发布博文，宣布旗下 Gemini AI 支持...

青云QingCloud Kub... 日前，青云科技宣布开源 Thanos 的企业级发行版 Whizard，为企业带来真正高可用、可扩展、...

Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大的mac卸载工具，以帮助您完全卸载...

8月20日基金净值：前海开源中... 证券之星消息，8月20日，前海开源中国稀缺资产混合A最新单位净值为1.43元，累计净值为1.43元，...