文字工作者在用最后一点血肉饲养AI_linux资讯

文字工作者在用最后一点血肉饲养AI

创始人

2024-09-10 20:49:21

0次

目前，LLM越做越好，但是在发展上却遇到了瓶颈。因此各大科技公司都在雇佣人类写作者产出高级语言样本，用于模型训练。对于这些人类写作者而言，自己心血凝结的创作成果尚未面世就投喂给AI，无异于“以身殉剑”的悲剧，更糟糕的是，这把剑到头来还是砍向自己的职业生涯。

图片来源：Getty/View Stock RF；Leigh Prather/Alamy

最近，一些境遇不太好的小说家、撰稿人、新闻从业者得到了一个新的兼职机会。他们每周都会花上几个小时，为那些身家数十亿美元的科技企业写作。确切的说，他们是在为这些公司的人工智能模型产出训练用的文本材料。

ChatGPT等大型语言模型(LLM) 早已向世界证明了它们杰出的文本生成能力。在大多数人享受着AI带来的便捷与新鲜感时，那些依靠码字而生的写作者却对此忧心忡忡。毫无疑问，按照外界的宣传，这些AI将以终结者的姿态取走他们的工作岗位。而他们，则像是趴在泰坦尼克号翘起的船尾上俯瞰雄伟的冰山。

当然，行业毁灭的一天还没有真的到来。在此之前，AI还需要进一步的训练与成长，因此科技公司正在竭尽全力收集高价值的文本材料。而雇佣文字工作者直接写作生产，就是举措之一。只是那些接受这份兼职的写作者，难免会有一点“自掘坟墓”的悲凉体验。

不过没办法，科技公司给的真的挺多。有人表示，这些兼职工作时间灵活，薪水也高于行业一般水准，而工作机会更是极其充裕。谁会跟钱过不去呢？

他们将这份工作称之为AI注释员。工作的核心部分，是对可能的聊天问题撰写回答。AI智能只能在了解了好的写作方式之后，才有可能做到自己写出好东西。也就是说，人类写作者通过自己的创作实践，在为AI树立写作的金标准。

除此之外，人类写作者还要负责教导AI言而有据。胡编乱造一直是AI的大病。而人类工作者将使用搜索引擎展示写作资料的引用来源，这种注释示例的方法，将能很好的帮助AI学会严谨的表达，从而在最大程度上避免满口胡诹的错误。

AI的世界其实是人类世界的有机重组。如果没有更好的语言样本，那么这些语言模型就无从进步。但或许有人困惑，这些模型不是已经接受了互联网上数十亿个单词和句子的训练吗？为何还需要进一步补充语言样本？

首先，互联网是有限的。当互联网上能被合理利用的样本，均被投喂给AI，这时模型仍然不完美，我们该怎么做？该如何寻求AI的进一步发展？一些研究人员在今年6月宣布，如果LLM按照目前的发展趋势继续下去，大约在2026年至2032年之间的某一天，“训练模型的数据集规模，将与人类现有公共文本数据库存的总规模相当”。

“人类现有公共文本数据库存”，请注意这几个字的分量。它几乎囊括了历史上所有保存下来的人类文本。

但即便数据文本规模已经如此之大，AI的文本生成能力仍然十分有限。如何让AI继续进步呢？有人曾经尝试过，让AI自己担任自己的导师，通过他们自己的输出来训练自己。以一种左右互搏的方式，实现写作技艺的进步。这种方法曾经在某些棋类竞技的AI中获得过巨大成功。

但对于大型语言模型来说，这条路子行不通。Ilia Shumailov博士表示：“不加鉴别地学习其他模型产出的数据，会导致AI本身‘模型崩溃’。这是一个退化的过程，随着时间的推移，模型会逐渐忘记真正的底层数据分布。” 换言之，它们会逐渐偏离法则，最终产生出一堆无意义的东西。离开“新鲜文本”的投喂，AI终将逐渐萎缩。因此，它们需要再次回归起点，寻求人类导师的悉心指导。

AI背后的资本更加着急。眼看着AI在步入实用领域之前，就陷入了发展停滞的瓶颈，他们正寻求一切可能的方法来突破AI的发展限制。比如，OpenAI最近就与英国《金融时报》等媒体巨头签署了许可协议，合同价值可能高达数亿美元。资本力量对于提升AI能力的需求是十分迫切的。

但这不仅仅是积累更多原创样本的问题。这些媒体公司有着自己的写作风格，这需要AI对文章进行有目的地模仿，而非仅仅是选择性地吸收。这正是AI注释员的教导发挥作用的地方。

George第一次担任“高级数据质控专家”时（这是AI注释员的官方名称），他称自己非常清楚地感受到了其处境的讽刺之处。大型语言模型会使写作自动化，而他现在把AI教导得越好，那么他本来的职业生涯就会越快衰落。这简直是一个后现代版的“教会徒弟，饿死师傅”。

George说，这就像有人付钱让你在沙滩上写字。即使我们的文字能留下痕迹，我们也永远无法认出它。George的比喻是精当的。这些AI注释员产出的文字根本不会被他人看到，只能像沙滩上的字迹一样，被人工智能浪潮所吞噬，然后轻轻拭去。

目前AI注释员的职业需求仍然很旺盛。畅销计算机科学教科书作者François Chollet表示，“大概有两万人全职从事创建注释数据来训练大型语言模型的工作”。他表示，如果没有这些岗位的付出，LLM的输出结果会“一塌糊涂”。

Contextual AI的数据主管Alex Manthey表示，AI注释员在LLM开发中扮演关键角色。这种做法“至关重要”，因为模型“需要人类参与其中，以确保其输入让最终用户满意”。她说，“每家公司都花费大量时间和巨额资金来实现这一点，这不是没有原因的”。

Chollet 和 Manthey 都透露，该岗位的招聘最近已从“低薪数据工人”转变为更专业、高薪的职位。因为，随着模型的写作能力越来越强，它们所需的训练数据质量也水涨船高。随之而来的是更高的薪水成本。有的远程注释岗位就将向作者支付每小时30英镑以上的报酬。这种高质量训练数据的稀缺性也催生了一大批第三方注释供应商，比如该领域中的企业Scale AI。

庞大的资金投入让投资人感到有些不对劲。Manthey 表示，“巨额数据预算”中的相当一部分流向了AI注释员，这一点可能招致投资者的质疑。有人讥讽到，如果我们需要花费如此多的资金雇佣人工来写作，那么这个所谓的人工智能是不是有点太“人工”了？Chollet也表示，许多科技公司确实尴尬地依赖着AI注释员的支持，但这一趋向可能会在未来得到纠正。但乐观的开发人员认为，对AI注释员的投入并不是一个无底洞。在一定规模的投入后，AI将能够完成对某些法则的突破。那时才是AI真正的出师之日。

参考文献：

https://www.nature.com/articles/s41586-024-07566-y#Bib1

数据语言 George 模型训练血肉文本人类写作者注释注释员释员

上一篇：转发提醒，警惕AI换脸拟声新骗局！

下一篇：有图未必有真相！AI涉灾谣言如何破？

文字工作者在用最后一点血肉饲养AI

相关内容

热门资讯