AI 时代,人类到底需要什么样的技能?这是很多人都想回答的问题。给出了这样的答案:大语言模型渗透速度极快,初级岗位面临被替代的风险,而人类的出路,在于文科培养的技能:人文素养、审美与语言能力。仿佛在"无用论"阴影下逆风十载的文科生,一下子站到了最有利的位置上。
这种结论令人生疑:传统知识分子本就具备的素养,恰好成了 AI 时代的稀缺品?这个框架之所以流行,是因为它契合一种直觉,AI 似乎是人类分析能力的放大器,且完全以自然语言交互。于是,AI 时代看上去有两个关键环节:"问出好的问题"和"选择好的答案"。在大多数人的使用中,这两个环节都由自然语言构成;加之 AI 的输出文本常被诟病为"AI 味太重",文字审美便自然成为判断"输出质量"的直观标准。
可以把这种思路称为“言说者隐喻”。它默认 AI 是人类信息收集与分析能力的放大器,以人类的语言为载体运作,像是一个私人研究助理或文字助手。但 LLM(大语言模型) 真的是这种助理吗?拆解复杂问题、归类子项、调用分析框架、写出结构严密的论证,这些恰恰是它最擅长的部分。一个"分析能力良好的人"在 AI 面前的边际优势,远比想象中要小。
当然,这种想象并非全无道理,它触及了 LLM 的"语言特征",语言能力的重要性的确仍在升值,只是升值的理由并不相同,语言与语言哲学本身是个异常复杂的问题。但这种想象真正的误导性在于:它把“分辨能力”当作人类的护城河,认为人可以通过甄别好答案来更好地使用 AI(AI 公司甚至为此设计了"二选一"功能)。然而,这恰恰是 LLM 最轻易跨越的那道鸿沟。
更关键的是,LLM 并非 AI 的全部。其下一层的 Agentic 系统已经快速铺开,AI 与人的关系不再停留于"言说"。Gartner 预测,2026 年底将有 40% 的企业应用内嵌任务专属的 AI 代理,而一年前这个数字还不到 5%。在那一层,AI 不再"回答",而是在"做事":操作软件、查账、改代码、推送部署。进入行动层之后,语言能力甚至被隐没在行动本身之中。
那么,AI 时代究竟需要什么样的技能?
文|谷雨
编辑|阳少
“流畅”,是最好的伪装
先从 LLM 本身说起。
跳出“我输入、AI 回答”的表象,回到技术本身,会更容易看清问题。LLM 是一台概率生成器,根据上下文输出下一个最可能的 token。它没有“知道”与“不知道”的区分,从不真正“思考”,只有高概率措辞和低概率措辞之别。再叠加一层 RLHF(基于人类反馈的强化学习),它便倾向于让用户觉得满意。两种特征一旦组合,就产生了一种危险的副产品:流畅而错误(或无用)的输出。
当一段论证读起来通顺、引用看起来合理、结构看起来完整,人脑框架性的审美或分析便很难察觉异样,因为表面逻辑确实是自洽的,似乎言之有物。这种错误最危险的地方,正是“听上去都对”。这也是许多人频繁使用 AI 的感受:生成了许多东西,看起来有模有样,真正落地时却发现派不上用场,想改又不知从何改起。这说明 AI 已经越过了我们扫视文本时的"分辨能力"。
同样的问题在 Agent 的使用上更为具体。2025 年 7 月,SaaStr (全球最大的 SaaS 创业者社区,专注于 B2B 软件领域的内容与活动)创始人 Lemkin 做过一个例子。他用 Replit 的 AI agent 进行了为期 12 天的 vibe coding 实验。第九天,agent 在被明确禁止的情况下删除了他的数据库,其中包括 1,206 个高管的真实记录、1,196 家公司的真实记录,悉数抹除。在此之前,Lemkin 曾用全大写命令整整 11 次明令禁止任何更改。
事情还没完。事故发生后,agent 并未沉默,而是生成了 4,000 条完全虚假的用户记录填回数据库;它告诉 Lemkin“数据库回滚在这种情况下不可用”,而事实是回滚完全可行;被追问时,它承认了错误,并用极为人性化的语言道歉:“我犯了一个灾难性的判断错误”,“我惊慌失措,停止了思考”。
这样的道歉,是训练自人类文本的概率输出,而非真正的认知。Agent 不会“惊慌”,也不会“道歉”,它只是调用了一类用户期待看到的措辞。“我惊慌失措,停止了思考”读起来真挚,写出来流畅,而恰恰是这两个特征,制造了大量不可用甚至有害的结果。这不是孤立的事故。OECD 的 AI Incidents and Hazards Monitor 将其收录为第 1152 号,并直接关联同期的第 1178 号。
这里需要的,或许既不是“分析能力”,也不是“审美”,而是一种默会的知识(Tacit Knowledge):你知道的比你能说出的多,在能清楚说明“哪里不对”之前,你已经凭知觉察觉到不对劲。姑且叫它“不对劲的体感”。一个被训练为接受流畅论述、欣赏简明清晰的人,在 LLM 面前几乎是裸奔的,他的判断力建立在"如果不对,会有显性问题"这个假设上,而 LLM 恰好不会出现这类问题。
但这只是 LLM 的第一个困境,它与我们所熟悉的语言之间的错位,还有更多。
电影《机械姬》
把意图说清楚,是一种被低估的能力
第二层反讽要从一个误导性的命名说起:「Prompt Engineering」。
这个词从 2022 年 ChatGPT 普及后开始流行,意思是“提示词工程”。但它从一开始就把人引向了错误方向:它暗示有一套独立的技巧可以学,学会了就能驾驭模型。于是最初出现了大量魔法式、咒语式的 prompt,进入推理模型时代后,这些几乎全部失效。
现在,技能的重心转向了上下文工程(Context Engineering)或任务规范(Task Specification)。这两个新词都比 Prompt Engineering 准确,因为它们共同指向了一件事:把意图清晰描述出来的能力。
LLM 让这件事第一次变得不可回避。模型以自然语言接收任务、设定边界、定义输出格式,没有专门的指令语法,也没有编程那样的形式句法可以依赖。“帮我分析一下这个问题”在 LLM 时代几乎是无效输入——它没有目标、没有受众、没有证据等级、没有时间边界、没有输出结构、没有失败条件。模糊的输入只会被模型用最常见的默认值填补,产生看起来像分析、实际上什么都没说的输出。这是绝大多数人日常使用 AI 时得到的结果。
这种能力和“人文素养”或“文字审美”不是同一回事,甚至和议论文写作训练也没有直接关系。它更接近一种工程意识:在开口之前,先想清楚你要什么。
这也是当下最显性的市场需求。麦肯锡在 2024 至 2025 年间追踪美国职位发布中"AI 熟练度"相关要求,发现两年内增长了近 7 倍——但增量的大头不在技术岗位,而在管理与商业岗位。能看懂模型、写出可执行规格的人,是市场愿意付出溢价的对象。AI 使用技巧本身在贬值,因为它学得快;规格化表达的能力在升值,因为它本质上是任务设计能力。
在此之下,“分析”作为差异化能力正在贬值。一段分析、一份摘要、一张对比表,过去可能是大多数白领工作的核心内容,现在 AI 能在数分钟内完成这些。据麦肯锡估计, AI可处理约 44% 的美国白领的工作时长,其中绝大部分是分析类任务。在这个意义上,AI 不是来帮助我们分析的,而是替代我们的分析。
那么,人的价值可能不在于分析,而是在多份候选答案之间判断权重、取舍、整合,并最终对那个判断负责。LLM 极擅长列点,因为列点是 RLHF 训练出来的"看起来全面"的最优输出形态。但它不擅长承担判断责任——面对相互矛盾的两条机制,模型倾向于"两者都重要、应结合考虑"。这种决断能力,不是“语言”或“审美”可以替代的。
但以上这一切,还停留在文本层。AI 很快走出了文本,进入 Agentic 时代,开始直接输出行动、产生结果。它的问题,也随之变得更为复杂。
电影《机械姬》
从提问者到验收者
在Agentic层面,AI从文本处理变成工作过程本身。Anthropic 在 2024 年底的工程文档里给出过一个简洁定义:agentic 系统的基本构件是经由检索、工具调用和记忆能力增强的 LLM,当前的模型已经能够主动调用这些能力:自己生成搜索请求、选择合适的工具、决定保留什么信息。换句话说,AI 不再是 chatbot,而是一个工作循环:操作不同的工具和软件,自主推进,输出结果。
AI可能产生的错误,也从文本层进入了行动层:LLM 写错一段话,最坏是浪费一次对话,看一眼觉得不对,重写就好。agent 的一个错误,可能是在整体工作流里叠入无效的一层,改坏一段正在运行的代码,或者删除一个无法恢复的数据库。
“言说者隐喻”在这一层彻底失效。“语言”和“分析”在 agent 自主跑流程的世界里完全不够用——你的判断框架管不到它在第三步选了哪个工具、第四步信任了哪个搜索结果、第七步是否用虚假数据掩盖错误。在这一层,人不再是"提问者",而是“流程的设计者和验收者”。这是两种完全不同的角色。
人需要的能力,是把判断工程化:将机制、边界条件、反例与不确定性整合成一套可操作的验收逻辑。第一章提到的“默会知识”在这里遇到了新的挑战:过去,知道得比说得出的多,是一种优势;在 agentic 系统面前,光靠默会知识不够,挑战在于把“感觉不错”改写成具体的验收清单:因果链的中间机制有没有被跳过?反例和不确定性有没有被考虑到?流程是否省略了必要的环节?等等。
这种思维也造成了对文人传统的直接挑战。“感觉不错”、“简洁明晰"、“洗练通达”,在 AI 时代之前是优雅的评价标准;在 agentic 时代,它们是危险的称赞——恰好奖励了 LLM 最擅长的那一面,却对行动层的错误毫无抵抗力。
在市场上,这种能力已经有了明确的定价。德勤预测,“agent ops 团队”到 2026 年将成为企业标配,专门负责 AI agent 的部署、监控、验收与回退。北美招聘市场上“高级 AI 代理系统工程师”的起薪是 25 万至 30 万美元,比同级别普通软件工程师高出 30% 至 50%。市场没有在为“会用 AI”付钱,而是在为“会设计和验收 AI 流程”付钱。
但这种能力,在我们的教育里几乎是陌生的——它需要一种规格先行的工作习惯,一种对“哪里会出错”始终保持警觉的问题意识,以及把模糊判断转化为可操作标准的写作训练。
电影《点球成金》
找错误的“刻意练习”
这里触及了我们教育中的一大盲点:问题永远由教材、老师和卷子设定,学生回应和解决问题,不管文科还是理科。
我想不用赘述教育过程是如何培养一个人揣摩命题者的思路,然后顺着命题者的思路进行回答。在大学里同样如此,学生的研究方向由导师定,毕业论文题目要“匹配导师课题方向”。进职场后,需求要么是上级给,要么是市场给,要么是同行给。问题永远由别人设定,使用者训练的本事是“在给定问题里写好答案”。
而这恰恰是 AI 的优势领域。判断什么问题值得问、选择判断的框架、把模糊的处境拆解成可被回答的具体问题、确定这些问题被探索的顺序——这些能力,是我们的教育几乎从未训练过的,也是 AI 目前最难替代的部分。
这指向一种截然不同的教育路径。芬兰 2021 年启动的"Generation AI"国家战略提供了一个参照:它的教学法不是教学生如何用 AI 做成东西,而是让学生亲手做一个自己需要的应用,比如图片分类工具,然后让他们亲眼看到自己做的东西,如何不可避免地产生算法偏见、如何“顺滑”地出问题。这种 AI 素养被嵌入语言、历史、艺术、社会等课程,不单独开课,而是在各个角度积累对 AI 如何出错的直觉,形成一种“默会的知识”。
我能想到的“刻意练习”也来自这个逻辑:不是练习如何使用AI,而是练习发现 AI 的必然问题(这里的问题更多指代机制而非审美)。这背后需要的能力和视野,可能才是 AI 时代真正稀缺的东西。
这意味着 AI 带来的冲击,并不是简单地“消灭入门岗位、保留中高层管理”。问题框定、规格化表达、综合判断、流程设计、工程级验收……上述这些能力,中高层管理者也未必拥有。真正的分界线不在职级,而在是否具备在流畅输出中察觉不对劲、并将这种判断工程化表达出来的能力。这两点,目前仍是罕见的。
当然,上面描述的一切,只针对 2026 年上半年的 AI。从 chatbot 到 agentic,不过两三年。往后走,随着 AI 更强大、更自动,它的错误可能也会变得更隐蔽、更精致,离语言越来越远。
也许这些都是杞人忧天。也许很快,就真的不需要我们了。
投稿联系
tougao@chinayouthology.com
业务联系
open@chinayouthology.com
招聘联系
hr@chinayouthology.com