一款小而强大的编程助手:零一万物正式开源 Yi-Coder 系列模型
创始人
2024-09-08 10:48:37
0

在 AI 领域中,代码生成和编辑工具一直是开发者们关注的焦点。

本周,零一万物开源了 Yi-Coder 系列模型,它作为 Yi 系列模型家族中的“编程小能手”,展现了卓越的代码生成能力。这是继今年 5 月 13 日开源 Yi-1.5 系列模型之后,零一万物在开源方向上的又一重要成果。

Yi-Coder 模型 Demo 展示

01 模型简介

Yi-Coder 系列模型专为编码任务而生,提供 1.5B 和 9B 两种参数。其中,Yi-Coder- 9B 的表现优于其他 10B 参数以下的模型,如 CodeQwen1.5 7B 和 CodeGeex4 9B,甚至能够与 DeepSeek-Coder 33B 相媲美。

02 模型特点

  • 小参数,强性能:尽管 Yi-Coder 的参数量相对较小,但它在各种任务,包括代码生成、代码理解、代码调试和代码补全中的表现十分出色。10B 以下的大小也让它易于使用,方便端侧部署。
  • 128K 长序列建模:Yi-Coder 能够处理长达 128K tokens 的上下文内容,有效捕捉长期依赖关系,适用于复杂项目级代码的理解和生成。
  • 强大的代码生成能力:支持 52 种主要编程语言,Yi-Coder 在代码生成和跨文件代码补全方面表现优异。

03 模型成绩

Yi-Coder 在代码生成基准测试中名列前茅

LiveCodeBench 是一个旨在为大语言模型提供全面公平的评测平台。它实时收集来自 LeetCode、AtCoder、CodeForces 等竞赛平台的新问题,构成了一个动态而全面的基准测试库。

为确保没有数据污染(Yi-Coder 的训练数据截止时间是 2023 年底),我们选取了 2024 年 1 月到 9 月的题目进行测试。在下图榜单中,Yi-Coder-9B-Chat 的通过率达到了 23.4%,在 10B 以下参数量的模型中是唯一一个通过率超过 20% 的模型。这一成绩超过了

  • DeepSeek-Coder-33B-Instruct 的 22.3%
  • CodeGeex4-All-9B 的 17.8%
  • CodeLLama-34B-Instruct 的 13.3%
  • CodeQwen1.5-7B-Chat 的 12%

除了竞赛级别的高难度评测,我们还选取了 Zero-shot HumanEval、3-shot MBPP 和 CRUXEval-O 等业内流行基准测试,用于评估模型的基础代码生成和推理能力。

下图评测结果表明,Yi-Coder 在这三个评估任务之下都取得了优异的性能。具体来说,Yi-Coder-9B-Chat 在 HumanEval 和 MBPP 的通过率分别达到了 85.4% 和 73.8%,超过其他 Coder 模型。此外,Yi-Coder 9B 在 CRUXEval-O 的准确率在开源 Coder 模型中首次达到了 50% 以上。

代码编辑和补全能力强劲

CodeEditorBench 涵盖了四个关键领域:代码调试、代码翻译、代码优化和代码需求转换。结果表明,在开源代码大语言模型中,Yi-Coder-9B-Chat 取得了优异的成绩,在 Primary 和 Plus 两个子集中始终优于 DeepSeek-Coder-33B-Instruct 和 CodeQwen1.5-7B-Chat。

代码补全方面,Yi-Coder 也表现出色。与代码生成不同,跨文件代码补全要求模型访问并理解跨多个文件的资源库,这些文件之间存在大量的跨文件依赖关系。本次评估采用了 CrossCodeEval 基准,在两种不同的情况下进行:检索相关上下文和不检索相关上下文。

下图结果表明,Yi-Coder 在有检索和无检索的情况下都优于其他同等规模的模型。这一成功验证了在具有较长上下文长度的软件仓库级代码语料库上进行训练能够使 Yi-Coder 有效捕捉长期依赖关系,从而提高其性能。

长序列建模表现优秀

我们效仿文本领域流行的长序列评测,合成了一个 128K 长序列的“Needle in the code” 评估任务,长度双倍于 CodeQwen1.5 所构建的 64K 长序列评测。它通过在长代码库中随机插入一个简单的自定义函数,测试模型能否在代码库最后重复这个函数。该测试旨在检测模型 LLM 是否能从长文本中提取出这些关键信息,从而反映 LLM 其对长文本的理解基础能力。

下图全绿结果表示,Yi-Coder-9B 在 128K 长度范围内完美完成了这一任务。

数学推理能力毫不逊色

DeepSeek Coder 先前的研究表明,模型强大的编码能力可以增强其数学推理能力。Yi-Coder 在七个数学题数据集上评估了代码辅助(PAL: Program-aided Language Models)解题能力,在每个数据集中,模型都要通过生成 Python 代码然后执行代码得出最后的答案。这七个任务的平均准确率得分如下图所示,Yi-Coder 9B 的准确率达到 70.3%,超过了 DeepSeek-Coder 33B 的 65.8%。

04 模型使用

如果你想快速上手试试 Yi-Coder,点击阅读原文参阅 Yi-Coder README,包含具体的下载和使用步骤。

剥离几百万行代码,复制核心算法去美国?TikTok 最新回应来了

订阅费超普通人月薪!一个月1.4万人民币,谁还用得起大模型?

被黑猴子虐爆了!索尼 8 年耗资 20 亿打造的巨作,14 天速死,成业内最大笑话!

要低代码,不要低能力,低代码工具能否成为企业增效神器?

相关内容

这种习惯也很伤脑,很多人却...
现在,人们的生活节奏不断提速,很多时候我们会同时做好几件事,一边和...
2025-09-15 21:18:21
乌克兰要打持久战,“打纵深...
近日,乌克兰对俄罗斯铁路交通和关键能源设施发起特别作战行动,打击目...
2025-09-15 21:17:06
北京恒易智汇通过工信部工业...
i黑马讯 近日,北京恒易智汇科技有限公司的「智慧安全监管解决方案」...
2025-09-15 06:16:33
重塑投资,公募AI量化大变...
【导读】重塑投资,公募AI量化大变革已至 中国基金报记者 孙晓辉 ...
2025-09-15 06:16:14
AI&半导体:AI...
华金证券近日发布电子行业周报:在以GPT、Gemini等大模型为代...
2025-09-15 06:14:23

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...