国内量化圈的第二个AI选手来了,开源模型代码跑分超 GPT-5.1
创始人
2026-01-02 16:47:15
0

2026 年开年,国内量化私募九坤投资创始团队旗下的至知研究院(IQuest Research)发布了首代开源代码大模型系列 IQuest-Coder-V1。

这家研究机构声称,其 40B 参数的旗舰模型在 SWE-bench Verified 基准测试中拿下了 81.4%的成绩,超越了 Claude Sonnet 4.5 的 77.2%和 GPT-5.1 的 76.3%。模型已在 GitHub 和 Hugging Face 上全面开源,涵盖 7B、14B、40B 三种参数规模,以及标准版和 Loop 变体。

图丨IQuest-Coder-V1的架构(来源:GitHub)

至知研究院由九坤投资创始团队发起设立,定位为独立于量化投研体系的 AI 研究平台。

九坤本身是国内最早将深度学习大规模应用于量化投资的机构之一,2020 年投资过亿建成 AI 超算集群“北溟”,旗下三大实验室长期从事数据、算法和交易执行研究。继幻方量化孵化出 DeepSeek 之后,这是又一家从量化圈走出来的 AI 研究力量。

IQuest-Coder-V1 技术报告中最值得关注的是 Code-Flow 训练范式对 commit 演化数据的利用。传统代码模型基于静态代码文件训练,相当于让模型看一堆代码快照。IQuest-Coder 的做法不同:它试图让模型学习代码仓库的演化轨迹——不只是代码长什么样,还要学习代码是怎么一步步改出来的。

具体来说,他们为每个代码仓库构建了形如(R_old, P, R_new)的三元组训练数据。R_old 代表项目在某个稳定开发阶段的代码状态,P 是捕捉两个状态差异的 Patch 信息(即 commit 变更),R_new 则是迭代后的新状态。

选取起点时有个讲究:他们避开了项目早期不稳定的探索性代码和后期碎片化的维护性修改,专门聚焦于项目生命周期 40%到 80%区间的“成熟期”。理由是这个阶段的代码库相对稳定,变更模式更能反映真实的软件开发逻辑。

这个思路有一定道理。程序员在修 bug 或加新功能时,脑子里转的不是“这段代码是什么”,而是“这段代码要从什么状态变成什么状态”。

Commit 记录天然包含了这种“变更意图”——为什么改、改了哪里、改完之后整体结构如何调整。如果模型能从大量 commit 历史中学到这种模式,理论上应该比只看静态代码更擅长理解“怎么改代码”。

这也解释了为什么 IQuest-Coder 在 SWE-bench 这类需要生成 patch 修复 issue 的任务上表现突出——任务形式本身就和训练数据的结构高度吻合。技术报告中提到的一个发现印证了这点:仓库演化数据(repository transition data)在任务规划能力上提供了比静态快照更好的训练信号。

图丨研究团队展示的太阳系模拟示例(来源:IQuest Lab)

预训练阶段,IQuest-Coder 先用通用数据和代码数据打底,随后用高质量代码语料进行退火(Annealing)。这部分比较常规。中间训练阶段则分两期进行:他们在 32K 上下文长度下注入了推理数据、Agent 轨迹和代码数据的混合,随后将上下文扩展到 128K,加入仓库级的长序列样本。

Agent 轨迹数据包含完整的“行动-观察-修正”循环——命令执行、日志输出、错误信息、测试结果等环境反馈。技术报告的说法是,推理数据提供符号层面的逻辑脚手架,Agent 轨迹则提供“闭环智能”,让模型学会根据环境反馈调整行为。他们声称在高质量代码退火之后、后训练之前注入这类数据,能在分布偏移下稳定模型性能。

后训练阶段分成两条路径:Thinking 路径先用包含显式推理轨迹的数据做监督微调,再用强化学习优化推理能力;Instruct 路径则用通用和代码指令数据做监督微调,再用 RL 增强指令遵循能力。

技术报告声称,Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。换言之,RL 可能是解锁代码模型“自主调试”能力的关键。

图丨训练流程(来源:GitHub)

架构方面,Loop 变体的设计比较有意思。LoopCoder 采用循环 Transformer 架构,让参数共享的 Transformer 块执行两次固定迭代。第一次迭代正常处理输入嵌入,第二次迭代同时计算两种注意力:全局注意力(iteration 2 的 queries attend to iteration 1 的所有 key-value 对)和局部注意力(维持因果性的常规自注意力)。

两种注意力的输出通过一个基于 query 表示的学习门控机制加权混合。这种设计的目的是在有限参数规模下获得更高的有效计算深度,即用参数共享换取更多计算步骤,在部署效率和模型能力之间找平衡。

后训练的 Thinking 路径也值得一提。技术报告声称,通过强化学习训练的 Thinking 版本在长程任务中展现出了自主错误恢复(error-recovery)能力,而这种能力在标准 Instruct SFT 路径中几乎观察不到。如果属实,这意味着 RL 可能是解锁代码模型“自主调试”能力的关键,模型不只是生成代码,还能在出错后自我修正。

根据技术报告,IQuest-Coder-V1-40B-Loop-Instruct 在 SWE-bench Verified 上取得了 81.4% 的解决率,在 BigCodeBench 上拿下 49.9%,在 BFCL(Berkeley Function Calling Leaderboard,伯克利函数调用排行榜)V3 上达到 73.8%,在 Mind2Web 上取得 62.5%,在 Terminal-Bench v1.0 上达到 51.3%。而 Thinking 版本在 LiveCodeBench v6 上的成绩是 81.1%,在 CRUXEval 的 Input-COT 和 Output-COT 上分别达到 98.5%和 99.4%。

图丨基准测试结果(来源:IQuest-Coder-V1)

当然,SWE-bench Verified 只覆盖 Python 且仅含 500 个样本,社区对“针对榜单优化”的担忧一直存在。其在实际使用中的表现如何,有待社区的进一步测试反馈。

从技术贡献看,IQuest-Coder-V1 最有价值的部分可能是对 commit 演化数据的系统性利用。这个方向此前在学术界有过探索,但在开源模型的大规模训练中应用得并不多。技术报告承诺会开源完整训练流程和中间检查点,这对研究代码模型如何学习软件工程能力将是有价值的参考。至于跑分能否转化为实际生产力,要等更多开发者上手实测才能下结论。

参考资料:

1. https://iquestlab.github.io/#/

相关内容

聚焦AI+大模型、三维重建...
中新网北京5月31日电 (记者 孙自法)记者5月31日从中国图像图...
2026-06-01 00:57:14
国泰海通:维持海外AI算力...
国泰海通维持海外AI 算力及应用产业链“增持”评级。其研报指出,O...
2026-06-01 00:54:38
黄仁勋:AI时代无需过度纠...
正值高校毕业季,AI技术的快速迭代让不少毕业生对就业前景倍感焦虑,...
2026-06-01 00:43:12
小米开源可控视频音效生成模...
IT之家 5 月 29 日消息,小米大模型应用团队今日发布 Con...
2026-06-01 00:41:13
鸿蒙生态设备超13亿台,开...
PChome 5月28日消息,2026开源鸿蒙开发者大会正式召开,...
2026-05-30 05:44:37
仁宝电脑与GMI Clou...
(全球TMT2026年5月28日讯)5月28日,仁宝电脑宣布,与美...
2026-05-28 21:09:59

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...