研究揭示AI智能体开发失衡:过度聚焦编程,忽视多数劳动力市场
创始人
2026-03-08 21:59:44
0

IT之家 3 月 8 日消息,一项大规模研究显示:AI 智能体开发几乎只聚焦编程任务,忽视了绝大多数劳动力市场。

卡内基梅隆大学与斯坦福大学的研究人员,系统性对比了涵盖 72342 项任务的 43 个智能体基准测试与美国劳动力市场。他们借助美国政府的 O*NET 数据库(该数据库对工作活动进行了多维度详细分类),将基准测试任务映射到 1016 种真实职业。

IT之家注意到,该研究揭示了一种失衡现状:当前智能体开发几乎只针对计算机与数学领域,而这一以编程为主的领域仅占美国总就业人数的 7.6%。

分析发现,多个高度数字化的工作领域在现有基准测试中几乎没有体现。管理领域数字化率达 88%,却仅占所有分析基准测试任务的 1.4%;法律工作数字化率 70%,占比仅 0.3%;建筑与工程领域数字化率 71%,占比也只有 0.7%。

研究人员认为,AI 智能体恰恰能在这些领域实现短期生产力提升,但这些领域也存在特殊技术挑战,包括目标模糊、成果需长期验证等。

从资本分配(即各专业领域总收入)来看,管理、法律等经济价值最高的领域在基准测试中占比依然偏低;与此同时,个人服务、护理等低薪劳动密集型领域也几乎未被关注。

研究表明,这种失衡在个人技能层面同样严重。研究人员构建了分类体系,将职业技能分为四类:信息获取、思维处理、人际互动、工作成果。现实中,四类所需技能分布相对均衡。

但智能体基准测试只聚焦“获取信息”和“计算机操作”两类,二者合计仅覆盖美国就业市场的不到 5%。而涉及大量现实工作的“人际互动”类别,在基准测试中几乎没有涉及。

研究人员将这种偏向归因于方法上的便捷性:那些易于编写任务指令、检验结果的领域获得了过多关注。尽管这推动了细分领域的快速发展,但研究团队警告,这可能让智能体开发偏离社会与经济回报最大的领域。

研究人员特别将 OpenAI 的 GDPval 基准测试列为正面案例:尽管规模相对较小,却覆盖了最广泛的专业领域与技能。OpenAI 在 2025 年专门设计该基准,用于衡量 AI 智能体对不同领域真实知识工作的影响。

为衡量 AI 智能体在覆盖工作领域中的实际自主程度,研究人员制定了可量化的自主性指标:将其定义为智能体在既定成功率下可处理的最大任务复杂度,复杂度通过分层工作流的步骤数衡量。

研究显示,即便在覆盖最充分的软件开发领域,任务复杂度提升时,智能体成功率也会急剧下降。智能体在思维处理、产出工作成果等独立活动中表现最佳,但即便在相对简单的任务中,也难以胜任信息查找检索、与人协作等工作。

少数可用于对照测试的基准(如 SWE-bench)显示:OpenHands 框架表现优于 SWE-agent,Claude 优于 GPT,中等复杂度任务中这一差距尤为明显。但研究人员提醒,这些趋势未必适用于其他复杂度级别,并呼吁更广泛地公开智能体运行轨迹,以开展更系统的对比。

基于研究结果,研究人员提出未来基准测试的三大设计原则:

1. 新基准应专门针对管理、法律等覆盖不足但高度数字化的领域,或追求跨领域、跨技能的广泛覆盖。

2. 基准测试需更贴近现实、更复杂。许多自动生成的基准仅捕捉了真实工作的简化片段,而人工编写的任务(如 GDPval、TheAgentCompany 基准)则覆盖多元领域与技能;若需通过自动生成实现规模化,任务设计应反映真实的领域与技能构成。

3. 推动更精细化的评估。仅衡量智能体是否完成任务,无法定位其具体失效环节。研究人员建议,从人类演示中自动提取工作流,设立中间检查点,从而更细致地评估智能体表现。该研究还提供了框架与配套资源,帮助基准设计者发现覆盖缺口、助力开发者明确改进方向、帮助用户为具体任务选择合适的自主等级。

这些结论与现实使用情况一致:Anthropic 近期基于数百万次人类-智能体交互的分析显示,软件开发占公共 API 中所有智能体工具调用的近 50%,而其他行业各自仅占几个百分点。Anthropic 将当前阶段称为“智能体应用的早期阶段”。

加州大学伯克利分校及合作机构 2025 年末的研究也得出相似结论:企业目前大多将 AI 智能体作为简单、高度受控的工具,自主操作步骤极少。该研究认为,系统可靠性仍是最大障碍。

相关内容

建议出台专项补助金 让AI...
全国人大代表耿福能: 建议出台专项补助金 让AI+医疗惠及更多人 ...
2026-03-09 11:40:45
“内容由AI生成”不是“免...
“真人表演的不可替代性就是温度。”今年两会期间,谈及AI对演艺行业...
2026-03-09 09:46:21
全链条推进“AI+医药/芯...
□ 本报记者 张晓蕊 今年政府工作报告首次提出“打造智能经济新形态...
2026-03-09 09:45:36
全国政协委员向华谈AI+医...
3月7日,全国政协委员、湖南省肿瘤医院院长向华接受红星新闻记者采访...
2026-03-09 07:37:52
研究揭示AI智能体开发失衡...
IT之家 3 月 8 日消息,一项大规模研究显示:AI 智能体开发...
2026-03-08 21:59:44
深圳龙岗拟首发“AI龙虾十...
随着开源智能体(AI Agent)项目OpenClaw近期走红,“...
2026-03-08 21:58:33

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...