重磅开源!Kimi把自家底层推理架构都开源了,开源贡献阵容相当豪华:清华、阿里、华为、AISoft、面壁智能
创始人
2024-11-29 19:35:38
0

就在昨天,Kimi宣布要把自家底层的大模型推理架构Mooncake开源出来!

有媒体称该架构正是承载了月之暗面Kimi线上80%以上流量的正在用的底层架构。

小编立马求证了一番,的确Github上有提到:Mooncake 正在服务Kimi平台。而且上线还不到一天就已经斩获了1600+ stars。

开源地址:https://github.com/kvcache-ai/Mooncake

1.开源最终目标:高性能语义存储的标准接口

“在大模型时代,更多的数据、更大的模型、更长的上下文窗口带来更高的智能,但也对大模型推理系统的效率提出更高挑战。如何应对高推理负载、降低推理成本、降低响应延迟成为业界共同面临的难题。”

大家都知道,月之暗面在长文本、深度推理、高并发等方面一直有着不错的研究和发布,这一次Kimi选择在感恩节将这个牛逼的技术开源出来,确实让大家感到意外和兴奋。

据月之暗面官方公众号介绍,此次是月之暗面联合清华大学等机构开源共建大模型推理架构Mooncake。

官方文档还透露了,本次开源将采用分阶段的方式:

逐步开源高性能KVCache多级缓存Mooncake Store的实现,同时针对各类推理引擎和底层存储/传输资源进行兼容。

其中传输引擎Transfer Engine现在已经在GitHub全球开源。

其最终开源目标是,为大模型时代打造一种新型高性能内存语义存储的标准接口,并提供参考实现方案。

月之暗面Kimi工程副总裁许欣然表示:

通过与清华大学MADSys实验室紧密合作,我们共同打造了分离式大模型推理架构Mooncake,实现推理资源的极致优化。

Mooncake不仅提升了Kimi的用户体验,降低了成本,还为处理长文本和高并发需求提供了有效的解决方案。

我们相信,通过与产学研机构开源合作,可以推动整个行业向更高效的推理平台方向发展。

实际上,这个项目早在今年6月就已启动,当时已受到业内广泛关注——

2.大模型推理架构Mooncake核心思路

今年6月24日,月之暗面和清华大学MADSys实验室联合发布了Kimi底层的Mooncake推理系统设计方案。

在这篇名为《Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving》的论文中,作者详细介绍了Mooncake这种系统架构。

该系统基于以KVCache为中心的PD分离和以存换算架构,大幅度提升了推理吞吐。

论文地址:https://arxiv.org/pdf/2407.00079

具体而言,Mooncake采用以KVCache为中心的解耦架构,将预填充集群与解码集群分离,并充分利用GPU集群中未充分利用的CPU、DRAM和SSD资源,实现KVCache的解耦缓存。

其核心思路在于以KVCache为中心的调度程序:

在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 要求之间取得平衡

当面对流量高峰期时,Mooncake通过早期拒绝策略和预测未来负载的方法,来处理超载问题。

  • 早期拒绝策略

简单说,其核心思想是在请求实际开始处理之前,根据当前系统的负载情况预测是否有足够的资源来处理新的请求。

如果预测结果表明系统资源不足以保证请求的及时处理,系统就会在请求到达之前予以拒绝,从而避免了无效的资源占用和不必要的延迟。

  • 预测未来负载

在Mooncake中,系统需要能够预测在未来一段时间内的负载情况,以便做出更准确的接受或拒绝请求的决策。

3.如何实现?

通常来说,这种预测会基于当前的请求模式、系统的资源使用情况以及历史数据等信息。

再通过对信息的进一步分析建模,Mooncake就能够估计接下来的请求处理需求,并据此调整其调度策略。

论文实验结果显示,与基线方法相比,Mooncake在某些模拟场景中可以实现高达525%的吞吐量提升,同时遵守SLO(与延迟相关的服务级别目标)。

在实际工作负载下,Mooncake使Kimi能够处理75%以上的请求。

而且据许欣然在其他场合透露:目前这套系统承载了Kimi线上80%以上的流量。

4.开源阵容相当豪华!!!

而现在,为了进一步加速该技术框架的应用与推广,Kimi联合清华大学等机构共同发布开源项目Mooncake。

参与开源的首批阵容包括:

AISoft、阿里云、华为存储、面壁智能、趋境科技等。

可以说,云计算、存储、AI模型玩家等产学研力量都聚齐了。

据悉,Mooncake开源项目从论文延伸,以超大规模KVCache缓存池为中心,通过以存换算的创新理念大幅度减少算力开销,显著提升了推理吞吐量。

目前Mooncake技术框架已正式开源上线,官方还表示:

欢迎更多企业和研究机构加入Mooncake项目共建,共同探索更加高效和先进的模型推理系统架构创新,让基于大模型技术的AI助手等产品,持续惠及更广泛人群。

开源实在是一个大杀器,推理架构层面的开源,意味着Kimi正在重新定义自己在模型侧的运作模式甚至商业计划。希望看到国内LLM推理方面的开源能够进一步助力大模型应用的真正爆发!

相关内容

字节与Anthropic打...
文 | 最话FunTalk,作者 | 林书,编辑 | 刘宇翔 6...
2026-06-26 22:40:47
在Soul App,他们一...
1980年,英国技术哲学家大卫·科林格里奇在 《技术的社会控制》中...
2026-06-26 22:39:24
SIGCOMM 2026 ...
论文作者均来自北京大学王选计算机研究所,第一作者为吴将凯博士,第二...
2026-06-26 18:43:57
从“用AI”到“造AI”:...
AI浪潮袭来已有数年。从最初的观望、焦虑,到后来的尝试、落地,再到...
2026-06-26 18:40:45
智谱开源GLM 5.2,成...
截至9:57,成长100(980080)跌2.95%,权重股中际旭...
2026-06-26 14:30:51
开源聚力深耕生态,AI创新...
6月25日,2026开放原子开源生态大会在北京召开。会上,开源鸿蒙...
2026-06-26 00:50:03

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...