开源中文DeepSeek-R1(满血)蒸馏数据集-110K
创始人
2025-02-19 21:20:53
0

分享一篇Datawhale朋友刘聪NLP的开源成果,希望可以帮助大家。

话不多说,先放数据下载链接。

HF:https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k

MS:https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k

该数据集为 中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据, 总数量为110K。

为什么开源这个数据?

R1的效果十分强大,并且基于R1蒸馏数据SFT的小模型也展现出了强大的效果,但之前群里问,貌似中文数据较少,基本上开源的R1蒸馏数据集都是英文数据,或者是非满血蒸馏数据。

这不就来了嘛!!!

其实对于有机器人的人来说,其实110K数据蒸馏也蛮快的,但巧妇难为无米之炊,大多数人可能是没有那么多资源自己本地部署一个满血版R1,这也是为什么很多蒸馏数据用的32B、7B等进行蒸馏的原因。

开这个数据,就是希望对大家有用,反正无论是做纯SFT,还是复现R1,都要有数据嘛!!

但要说的一点是,因为有很多通用数据(R1的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集),所以 数据的整体长度可能没那么长,大家见谅哈!等有机会,我再开点超长数据的(机器在哭~)。

该中文数据集中的数据分布如下:

  • Math:共计36987个样本,

  • Exam:共计2440个样本,

  • STEM:共计12000个样本,

  • General:共计58573,包含弱智吧、逻辑推理、小红书、知乎、Chat等。

数据集蒸馏细节

数据的prompt源来自:

  • Haijian/Advanced-Math

  • gavinluo/applied_math

  • meta-math/GSM8K_zh

  • EduChat-Math

  • m-a-p/COIG-CQIA

  • m-a-p/neo_sft_phase2

  • hfl/stem_zh_instruction

同时为了方便大家溯源,在每条数据的repo_name字段中都加入的原始数据源repo。

在蒸馏过程中,按照DeepSeek-R1官方提供的细节,进行数据蒸馏。

  • 不增加额外的系统提示词

  • 设置temperature为0.6

  • 如果为数学类型数据,则增加提示词,“请一步步推理,并把最终答案放到 \boxed{}。”

  • 防止跳出思维模式,强制在每个输出的开头增加"\n",再开始生成数据

由于个人资源有限,所有数据的蒸馏均调用 无问芯穹的企业版满血R1 API生成,在此由衷的感谢 无问芯穹

任务期间,保持稳定地运行300并发,持续运行近12个小时,性能稳定,推理速度最快25 tokens/s。没给我垃圾的并行代码带来太大的负担,哈哈哈~~~感恩!

其实数据蒸馏之前就常用, 之前蒸馏GPT4,现在改成蒸馏DeepSeek-R1了。

DS就像是一条鲇鱼,搅浑了开源和闭源这摊死水,前两天百度先宣布免费,再宣布开源。OpenAI同时也是坐不住了,先开发o1的思维链(总结版),后面也不挤牙膏了,说马上来GPT4.5和GPT5。也来了,所以开源越来越好啦~~

相关内容

5月28日天通股份涨10....
证券之星消息,5月28日天通股份(600330)涨10.00%,收...
2026-05-28 20:40:40
名雕股份成立科技新公司,含...
企查查APP显示,近日,深圳市鲸跃云科科技有限公司成立,注册资本1...
2026-05-27 21:47:16
霸榜、涨价与出海:中国AI...
作者丨邱同春 编辑丨邢怡然 5月11日,市场传出快手正在推动旗下可...
2026-05-27 21:00:37
“渝快聘”AI新品发布 现...
原标题:智赋人力 共启新程|“渝快聘”AI新品发布会圆满落幕,现场...
2026-05-26 02:17:49
宝妈的家务活能帮京东AI闯...
每经记者:王郁彪 每经编辑:许绍航 5月的宿迁室外气温虽不算太高,...
2026-05-24 21:50:31
OpenClaw工程师:A...
5月24日消息,据《华尔街日报》报道,两位参与打造OpenClaw...
2026-05-24 14:06:57

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...