研究表明：用AI训练AI，可能越练越傻_linux资讯

研究表明：用AI训练AI，可能越练越傻

创始人

2024-07-27 19:07:56

0次

2024年7月26日，央视财经频道报道：用AI训练AI，可能越练越傻。

该报道可能援引了网络内容：

在AI大模型训练上，一个被寄予厚望的方法是“用大模型自己生成的数据来训练自己”。事实上，当后代模型的训练数据也从网络中获取时，就会不可避免地使用前代模型生成的数据。

来自牛津大学和剑桥大学的研究团队及其合作者给这一设想“泼了一盆冷水”。他们给出了这样一个结论：模型在训练中使用自身生成的内容，会出现不可逆转的缺陷，逐渐忘记真实数据分布，从而导致模型性能下降。

该网络内容援引的是 Nature 上的一篇论文“AI models collapse when trained on recursively generated data”。

图片来源：网易新闻

该文章作者表示，用一个旧模型生成的数据去训练一个新模型，并非不可行，但必须对数据进行严格的过滤。

随着迭代次数的增加，模型生成的样本中低困惑度样本的数量开始积累，表明模型开始忘记真实数据分布中的尾部事件。并且，与原始模型相比，后续迭代模型的性能有所下降，表现为困惑度增加。此外，模型生成的数据中包含大量重复的短语。

例如，一个生成 AI 模型负责生成狗的图像。AI 模型会倾向于重现训练数据中最常见的狗的品种，因此可能会过多地呈现金毛，而非法斗。如果随后的模型在一个 AI 生成的数据集中进行训练，而这个数据集中过多地呈现了金毛，这个问题就会加剧。经过足够多轮次的过多呈现金毛后，模型将忘记诸如法斗这样的冷门品种的存在，只生成金毛的图像。最终，模型将崩溃，无法生成有意义的内容。

图 | 模型会逐渐忽视训练数据中不常见的元素。图片来源：网易新闻

模型会逐渐忘记真实语言中出现的低概率事件，例如罕见词汇或短语。这会导致模型生成的内容缺乏多样性，并无法正确地模拟真实世界的复杂性。并且模型会逐渐生成与真实世界不符的内容，例如错误的日期、地点或事件。这会导致模型生成的内容失去可信度，并无法用于可靠的信息检索或知识问答等任务。此外，模型会逐渐学习到训练数据中的偏见和歧视，并将其反映在生成的内容中。

前有Nature 撰文，后有央视报道，显然，用AI训练AI的效果是有限的，迄今尚未达到训练者的预期。

当前对大模型的训练还得有人的深入参与和严格管理，人对AI仍然起支配作用，人才能更好把握真实世界的信息并准确利用它。

这是人之不幸乎？还是人之幸乎？

参考消息：

Nature最新封面：AI 训练 AI？也许越来越笨|训练_新浪财经_新浪网 (sina.com.cn)

https://finance.sina.com.cn/roll/2024-07-25/doc-incfhhzs6807876.shtml

Nature com 事件数据网络模型训练金毛 cn 内容观点评论困惑度

上一篇：美股“七巨头”的“至暗时刻”：2万亿美元市值蒸发，生成式AI业务难赚钱

下一篇：美国演员工会因AI问题与游戏厂商起冲突

研究表明：用AI训练AI，可能越练越傻

相关内容

热门资讯