文字工作者在用最后一点血肉饲养AI
创始人
2024-09-10 20:49:21
0

目前,LLM越做越好,但是在发展上却遇到了瓶颈。因此各大科技公司都在雇佣人类写作者产出高级语言样本,用于模型训练。对于这些人类写作者而言,自己心血凝结的创作成果尚未面世就投喂给AI,无异于“以身殉剑”的悲剧,更糟糕的是,这把剑到头来还是砍向自己的职业生涯。

图片来源:Getty/View Stock RF;Leigh Prather/Alamy

最近,一些境遇不太好的小说家、撰稿人、新闻从业者得到了一个新的兼职机会。他们每周都会花上几个小时,为那些身家数十亿美元的科技企业写作。确切的说,他们是在为这些公司的人工智能模型产出训练用的文本材料。

ChatGPT等大型语言模型(LLM) 早已向世界证明了它们杰出的文本生成能力。在大多数人享受着AI带来的便捷与新鲜感时,那些依靠码字而生的写作者却对此忧心忡忡。毫无疑问,按照外界的宣传,这些AI将以终结者的姿态取走他们的工作岗位。而他们,则像是趴在泰坦尼克号翘起的船尾上俯瞰雄伟的冰山。

当然,行业毁灭的一天还没有真的到来。在此之前,AI还需要进一步的训练与成长,因此科技公司正在竭尽全力收集高价值的文本材料。而雇佣文字工作者直接写作生产,就是举措之一。只是那些接受这份兼职的写作者,难免会有一点“自掘坟墓”的悲凉体验。

不过没办法,科技公司给的真的挺多。有人表示,这些兼职工作时间灵活,薪水也高于行业一般水准,而工作机会更是极其充裕。谁会跟钱过不去呢?

他们将这份工作称之为AI注释员。工作的核心部分,是对可能的聊天问题撰写回答。AI智能只能在了解了好的写作方式之后,才有可能做到自己写出好东西。也就是说,人类写作者通过自己的创作实践,在为AI树立写作的金标准。

除此之外,人类写作者还要负责教导AI言而有据。胡编乱造一直是AI的大病。而人类工作者将使用搜索引擎展示写作资料的引用来源,这种注释示例的方法,将能很好的帮助AI学会严谨的表达,从而在最大程度上避免满口胡诹的错误。

AI的世界其实是人类世界的有机重组。如果没有更好的语言样本,那么这些语言模型就无从进步。但或许有人困惑,这些模型不是已经接受了互联网上数十亿个单词和句子的训练吗?为何还需要进一步补充语言样本?

首先,互联网是有限的。当互联网上能被合理利用的样本,均被投喂给AI,这时模型仍然不完美,我们该怎么做?该如何寻求AI的进一步发展?一些研究人员在今年6月宣布,如果LLM按照目前的发展趋势继续下去,大约在2026年至2032年之间的某一天,“训练模型的数据集规模,将与人类现有公共文本数据库存的总规模相当”。

“人类现有公共文本数据库存”,请注意这几个字的分量。它几乎囊括了历史上所有保存下来的人类文本。

但即便数据文本规模已经如此之大,AI的文本生成能力仍然十分有限。如何让AI继续进步呢?有人曾经尝试过,让AI自己担任自己的导师,通过他们自己的输出来训练自己。以一种左右互搏的方式,实现写作技艺的进步。这种方法曾经在某些棋类竞技的AI中获得过巨大成功。

但对于大型语言模型来说,这条路子行不通。Ilia Shumailov博士表示:“不加鉴别地学习其他模型产出的数据,会导致AI本身‘模型崩溃’。这是一个退化的过程,随着时间的推移,模型会逐渐忘记真正的底层数据分布。” 换言之,它们会逐渐偏离法则,最终产生出一堆无意义的东西。离开“新鲜文本”的投喂,AI终将逐渐萎缩。因此,它们需要再次回归起点,寻求人类导师的悉心指导。

AI背后的资本更加着急。眼看着AI在步入实用领域之前,就陷入了发展停滞的瓶颈,他们正寻求一切可能的方法来突破AI的发展限制。比如,OpenAI最近就与英国《金融时报》等媒体巨头签署了许可协议,合同价值可能高达数亿美元。资本力量对于提升AI能力的需求是十分迫切的。

但这不仅仅是积累更多原创样本的问题。这些媒体公司有着自己的写作风格,这需要AI对文章进行有目的地模仿,而非仅仅是选择性地吸收。这正是AI注释员的教导发挥作用的地方。

George第一次担任“高级数据质控专家”时(这是AI注释员的官方名称),他称自己非常清楚地感受到了其处境的讽刺之处。大型语言模型会使写作自动化,而他现在把AI教导得越好,那么他本来的职业生涯就会越快衰落。这简直是一个后现代版的“教会徒弟,饿死师傅”。

George说,这就像有人付钱让你在沙滩上写字。即使我们的文字能留下痕迹,我们也永远无法认出它。George的比喻是精当的。这些AI注释员产出的文字根本不会被他人看到,只能像沙滩上的字迹一样,被人工智能浪潮所吞噬,然后轻轻拭去。

目前AI注释员的职业需求仍然很旺盛。畅销计算机科学教科书作者François Chollet表示,“大概有两万人全职从事创建注释数据来训练大型语言模型的工作”。他表示,如果没有这些岗位的付出,LLM的输出结果会“一塌糊涂”。

Contextual AI的数据主管Alex Manthey表示,AI注释员在LLM开发中扮演关键角色。这种做法“至关重要”,因为模型“需要人类参与其中,以确保其输入让最终用户满意”。她说,“每家公司都花费大量时间和巨额资金来实现这一点,这不是没有原因的”。

Chollet 和 Manthey 都透露,该岗位的招聘最近已从“低薪数据工人”转变为更专业、高薪的职位。因为,随着模型的写作能力越来越强,它们所需的训练数据质量也水涨船高。随之而来的是更高的薪水成本。有的远程注释岗位就将向作者支付每小时30英镑以上的报酬。这种高质量训练数据的稀缺性也催生了一大批第三方注释供应商,比如该领域中的企业Scale AI。

庞大的资金投入让投资人感到有些不对劲。Manthey 表示,“巨额数据预算”中的相当一部分流向了AI注释员,这一点可能招致投资者的质疑。有人讥讽到,如果我们需要花费如此多的资金雇佣人工来写作,那么这个所谓的人工智能是不是有点太“人工”了?Chollet也表示,许多科技公司确实尴尬地依赖着AI注释员的支持,但这一趋向可能会在未来得到纠正。但乐观的开发人员认为,对AI注释员的投入并不是一个无底洞。在一定规模的投入后,AI将能够完成对某些法则的突破。那时才是AI真正的出师之日。

参考文献:

https://www.nature.com/articles/s41586-024-07566-y#Bib1

相关内容

看了AI生成的ASMR吃播...
前段时间,一条用 AI 生成的切水果 ASMR 短视频,在洋抖上爆...
2025-07-12 13:13:44
上海AI实验室团队:如何优...
这项由上海AI实验室和复?dan大学联合开展的突破性研究发表于20...
2025-07-12 13:13:26
告别“无效阅读”,AI正在...
学校管理者为零散的阅读活动、无法量化的成果而苦恼; 一线教师在“选...
2025-07-12 12:42:00
月之暗面Kimi K2发布...
月之暗面今天宣布,正式发布Kimi K2模型,并同步开源。Kimi...
2025-07-12 06:12:21
7月11日广晟有色涨5.5...
证券之星消息,7月11日广晟有色(600259)涨5.57%,收盘...
2025-07-11 18:11:28
审查中国AI大模型,美国又...
路透社9日报道称,美国官员一直在秘密评估中国的人工智能(AI)大模...
2025-07-11 12:11:57

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...