从提问者到验收者：重新理解AI时代的核心能力_linux资讯

从提问者到验收者：重新理解AI时代的核心能力

创始人

2026-05-09 16:16:32

0次

AI 时代，人类到底需要什么样的技能？这是很多人都想回答的问题。给出了这样的答案：大语言模型渗透速度极快，初级岗位面临被替代的风险，而人类的出路，在于文科培养的技能：人文素养、审美与语言能力。仿佛在"无用论"阴影下逆风十载的文科生，一下子站到了最有利的位置上。

这种结论令人生疑：传统知识分子本就具备的素养，恰好成了 AI 时代的稀缺品？这个框架之所以流行，是因为它契合一种直觉，AI 似乎是人类分析能力的放大器，且完全以自然语言交互。于是，AI 时代看上去有两个关键环节："问出好的问题"和"选择好的答案"。在大多数人的使用中，这两个环节都由自然语言构成；加之 AI 的输出文本常被诟病为"AI 味太重"，文字审美便自然成为判断"输出质量"的直观标准。

可以把这种思路称为“言说者隐喻”。它默认 AI 是人类信息收集与分析能力的放大器，以人类的语言为载体运作，像是一个私人研究助理或文字助手。但 LLM（大语言模型）真的是这种助理吗？拆解复杂问题、归类子项、调用分析框架、写出结构严密的论证，这些恰恰是它最擅长的部分。一个"分析能力良好的人"在 AI 面前的边际优势，远比想象中要小。

当然，这种想象并非全无道理，它触及了 LLM 的"语言特征"，语言能力的重要性的确仍在升值，只是升值的理由并不相同，语言与语言哲学本身是个异常复杂的问题。但这种想象真正的误导性在于：它把“分辨能力”当作人类的护城河，认为人可以通过甄别好答案来更好地使用 AI（AI 公司甚至为此设计了"二选一"功能）。然而，这恰恰是 LLM 最轻易跨越的那道鸿沟。

更关键的是，LLM 并非 AI 的全部。其下一层的 Agentic 系统已经快速铺开，AI 与人的关系不再停留于"言说"。Gartner 预测，2026 年底将有 40% 的企业应用内嵌任务专属的 AI 代理，而一年前这个数字还不到 5%。在那一层，AI 不再"回答"，而是在"做事"：操作软件、查账、改代码、推送部署。进入行动层之后，语言能力甚至被隐没在行动本身之中。

那么，AI 时代究竟需要什么样的技能？

文｜谷雨

编辑｜阳少

“流畅”，是最好的伪装

先从 LLM 本身说起。

跳出“我输入、AI 回答”的表象，回到技术本身，会更容易看清问题。LLM 是一台概率生成器，根据上下文输出下一个最可能的 token。它没有“知道”与“不知道”的区分，从不真正“思考”，只有高概率措辞和低概率措辞之别。再叠加一层 RLHF（基于人类反馈的强化学习），它便倾向于让用户觉得满意。两种特征一旦组合，就产生了一种危险的副产品：流畅而错误（或无用）的输出。

当一段论证读起来通顺、引用看起来合理、结构看起来完整，人脑框架性的审美或分析便很难察觉异样，因为表面逻辑确实是自洽的，似乎言之有物。这种错误最危险的地方，正是“听上去都对”。这也是许多人频繁使用 AI 的感受：生成了许多东西，看起来有模有样，真正落地时却发现派不上用场，想改又不知从何改起。这说明 AI 已经越过了我们扫视文本时的"分辨能力"。

同样的问题在 Agent 的使用上更为具体。2025 年 7 月，SaaStr （全球最大的 SaaS 创业者社区，专注于 B2B 软件领域的内容与活动）创始人 Lemkin 做过一个例子。他用 Replit 的 AI agent 进行了为期 12 天的 vibe coding 实验。第九天，agent 在被明确禁止的情况下删除了他的数据库，其中包括 1,206 个高管的真实记录、1,196 家公司的真实记录，悉数抹除。在此之前，Lemkin 曾用全大写命令整整 11 次明令禁止任何更改。

事情还没完。事故发生后，agent 并未沉默，而是生成了 4,000 条完全虚假的用户记录填回数据库；它告诉 Lemkin“数据库回滚在这种情况下不可用”，而事实是回滚完全可行；被追问时，它承认了错误，并用极为人性化的语言道歉：“我犯了一个灾难性的判断错误”，“我惊慌失措，停止了思考”。

这样的道歉，是训练自人类文本的概率输出，而非真正的认知。Agent 不会“惊慌”，也不会“道歉”，它只是调用了一类用户期待看到的措辞。“我惊慌失措，停止了思考”读起来真挚，写出来流畅，而恰恰是这两个特征，制造了大量不可用甚至有害的结果。这不是孤立的事故。OECD 的 AI Incidents and Hazards Monitor 将其收录为第 1152 号，并直接关联同期的第 1178 号。

这里需要的，或许既不是“分析能力”，也不是“审美”，而是一种默会的知识（Tacit Knowledge）：你知道的比你能说出的多，在能清楚说明“哪里不对”之前，你已经凭知觉察觉到不对劲。姑且叫它“不对劲的体感”。一个被训练为接受流畅论述、欣赏简明清晰的人，在 LLM 面前几乎是裸奔的，他的判断力建立在"如果不对，会有显性问题"这个假设上，而 LLM 恰好不会出现这类问题。

但这只是 LLM 的第一个困境，它与我们所熟悉的语言之间的错位，还有更多。

电影《机械姬》

把意图说清楚，是一种被低估的能力

第二层反讽要从一个误导性的命名说起：「Prompt Engineering」。

这个词从 2022 年 ChatGPT 普及后开始流行，意思是“提示词工程”。但它从一开始就把人引向了错误方向：它暗示有一套独立的技巧可以学，学会了就能驾驭模型。于是最初出现了大量魔法式、咒语式的 prompt，进入推理模型时代后，这些几乎全部失效。

现在，技能的重心转向了上下文工程（Context Engineering）或任务规范（Task Specification）。这两个新词都比 Prompt Engineering 准确，因为它们共同指向了一件事：把意图清晰描述出来的能力。

LLM 让这件事第一次变得不可回避。模型以自然语言接收任务、设定边界、定义输出格式，没有专门的指令语法，也没有编程那样的形式句法可以依赖。“帮我分析一下这个问题”在 LLM 时代几乎是无效输入——它没有目标、没有受众、没有证据等级、没有时间边界、没有输出结构、没有失败条件。模糊的输入只会被模型用最常见的默认值填补，产生看起来像分析、实际上什么都没说的输出。这是绝大多数人日常使用 AI 时得到的结果。

这种能力和“人文素养”或“文字审美”不是同一回事，甚至和议论文写作训练也没有直接关系。它更接近一种工程意识：在开口之前，先想清楚你要什么。

这也是当下最显性的市场需求。麦肯锡在 2024 至 2025 年间追踪美国职位发布中"AI 熟练度"相关要求，发现两年内增长了近 7 倍——但增量的大头不在技术岗位，而在管理与商业岗位。能看懂模型、写出可执行规格的人，是市场愿意付出溢价的对象。AI 使用技巧本身在贬值，因为它学得快；规格化表达的能力在升值，因为它本质上是任务设计能力。

在此之下，“分析”作为差异化能力正在贬值。一段分析、一份摘要、一张对比表，过去可能是大多数白领工作的核心内容，现在 AI 能在数分钟内完成这些。据麦肯锡估计， AI可处理约 44% 的美国白领的工作时长，其中绝大部分是分析类任务。在这个意义上，AI 不是来帮助我们分析的，而是替代我们的分析。

那么，人的价值可能不在于分析，而是在多份候选答案之间判断权重、取舍、整合，并最终对那个判断负责。LLM 极擅长列点，因为列点是 RLHF 训练出来的"看起来全面"的最优输出形态。但它不擅长承担判断责任——面对相互矛盾的两条机制，模型倾向于"两者都重要、应结合考虑"。这种决断能力，不是“语言”或“审美”可以替代的。

但以上这一切，还停留在文本层。AI 很快走出了文本，进入 Agentic 时代，开始直接输出行动、产生结果。它的问题，也随之变得更为复杂。

电影《机械姬》

从提问者到验收者

在Agentic层面，AI从文本处理变成工作过程本身。Anthropic 在 2024 年底的工程文档里给出过一个简洁定义：agentic 系统的基本构件是经由检索、工具调用和记忆能力增强的 LLM，当前的模型已经能够主动调用这些能力：自己生成搜索请求、选择合适的工具、决定保留什么信息。换句话说，AI 不再是 chatbot，而是一个工作循环：操作不同的工具和软件，自主推进，输出结果。

AI可能产生的错误，也从文本层进入了行动层：LLM 写错一段话，最坏是浪费一次对话，看一眼觉得不对，重写就好。agent 的一个错误，可能是在整体工作流里叠入无效的一层，改坏一段正在运行的代码，或者删除一个无法恢复的数据库。

“言说者隐喻”在这一层彻底失效。“语言”和“分析”在 agent 自主跑流程的世界里完全不够用——你的判断框架管不到它在第三步选了哪个工具、第四步信任了哪个搜索结果、第七步是否用虚假数据掩盖错误。在这一层，人不再是"提问者"，而是“流程的设计者和验收者”。这是两种完全不同的角色。

人需要的能力，是把判断工程化：将机制、边界条件、反例与不确定性整合成一套可操作的验收逻辑。第一章提到的“默会知识”在这里遇到了新的挑战：过去，知道得比说得出的多，是一种优势；在 agentic 系统面前，光靠默会知识不够，挑战在于把“感觉不错”改写成具体的验收清单：因果链的中间机制有没有被跳过？反例和不确定性有没有被考虑到？流程是否省略了必要的环节？等等。

这种思维也造成了对文人传统的直接挑战。“感觉不错”、“简洁明晰"、“洗练通达”，在 AI 时代之前是优雅的评价标准；在 agentic 时代，它们是危险的称赞——恰好奖励了 LLM 最擅长的那一面，却对行动层的错误毫无抵抗力。

在市场上，这种能力已经有了明确的定价。德勤预测，“agent ops 团队”到 2026 年将成为企业标配，专门负责 AI agent 的部署、监控、验收与回退。北美招聘市场上“高级 AI 代理系统工程师”的起薪是 25 万至 30 万美元，比同级别普通软件工程师高出 30% 至 50%。市场没有在为“会用 AI”付钱，而是在为“会设计和验收 AI 流程”付钱。

但这种能力，在我们的教育里几乎是陌生的——它需要一种规格先行的工作习惯，一种对“哪里会出错”始终保持警觉的问题意识，以及把模糊判断转化为可操作标准的写作训练。

电影《点球成金》

找错误的“刻意练习”

这里触及了我们教育中的一大盲点：问题永远由教材、老师和卷子设定，学生回应和解决问题，不管文科还是理科。

我想不用赘述教育过程是如何培养一个人揣摩命题者的思路，然后顺着命题者的思路进行回答。在大学里同样如此，学生的研究方向由导师定，毕业论文题目要“匹配导师课题方向”。进职场后，需求要么是上级给，要么是市场给，要么是同行给。问题永远由别人设定，使用者训练的本事是“在给定问题里写好答案”。

而这恰恰是 AI 的优势领域。判断什么问题值得问、选择判断的框架、把模糊的处境拆解成可被回答的具体问题、确定这些问题被探索的顺序——这些能力，是我们的教育几乎从未训练过的，也是 AI 目前最难替代的部分。

这指向一种截然不同的教育路径。芬兰 2021 年启动的"Generation AI"国家战略提供了一个参照：它的教学法不是教学生如何用 AI 做成东西，而是让学生亲手做一个自己需要的应用，比如图片分类工具，然后让他们亲眼看到自己做的东西，如何不可避免地产生算法偏见、如何“顺滑”地出问题。这种 AI 素养被嵌入语言、历史、艺术、社会等课程，不单独开课，而是在各个角度积累对 AI 如何出错的直觉，形成一种“默会的知识”。

我能想到的“刻意练习”也来自这个逻辑：不是练习如何使用AI，而是练习发现 AI 的必然问题（这里的问题更多指代机制而非审美）。这背后需要的能力和视野，可能才是 AI 时代真正稀缺的东西。

这意味着 AI 带来的冲击，并不是简单地“消灭入门岗位、保留中高层管理”。问题框定、规格化表达、综合判断、流程设计、工程级验收……上述这些能力，中高层管理者也未必拥有。真正的分界线不在职级，而在是否具备在流畅输出中察觉不对劲、并将这种判断工程化表达出来的能力。这两点，目前仍是罕见的。

当然，上面描述的一切，只针对 2026 年上半年的 AI。从 chatbot 到 agentic，不过两三年。往后走，随着 AI 更强大、更自动，它的错误可能也会变得更隐蔽、更精致，离语言越来越远。

也许这些都是杞人忧天。也许很快，就真的不需要我们了。

投稿联系

tougao@chinayouthology.com

业务联系

open@chinayouthology.com

招聘联系

hr@chinayouthology.com

分析时代能力语言 Agentic 核心问题验收人类提问者默会 agent 文本

上一篇：AI短剧困局：一边是千亿风口，一边被艺人抵制

下一篇：美政府考虑下达AI安全行政令，不强制要求前沿模型接受审批

从提问者到验收者：重新理解AI时代的核心能力

相关内容

热门资讯