开源大模型上演神仙打架,Meta Llama3.1与Mistral Large 2该怎么选?
创始人
2024-07-25 19:06:49
0

这两天,开源大模型真是杀疯了。昨天,Meta宣布推出封神版大模型Meta Llama3.1;今天,后起之秀Mistral表示参战,推出旗舰版模型Large 2。两款大模型推出后,一大堆供应商都表示快速支持。对于用户来说,此刻可能是一片懵的状态,大模型真是变化太快了,感觉永远在被带节奏。

面对各种大模型,到底该如何选择?听听专家怎么说!

“开源软件和模型的共同开发现在成为常态。对我们来说,只花了几分钟修改了一点 Python 代码就能支持 405b。”Lepton AI 联合创始人兼 CEO贾扬清,通过自己的朋友圈分享了最新观点。他认为,支持开源大模型,现在变得很容易。但从快速推广和应用视角来看,个人更期待Mistral Large的未来发展。

以下为原文观点:

Llama3.1 405B 的性能测评,数据来自 LLM 聚合平台 OpenRouter:

看到几乎所有提供商都迅速支持这个模型,很惊喜。开源软件和模型的共同开发现在成为常态。对我们来说,只花了几分钟修改了一点 Python 代码就能支持 405b。

Llama 3.1 405B 确实是一个难盈利的模型。需要半台或一台机器来运行,成本很高,速度还一般。大多数提供商保持在每秒 30 个 token 左右(见图),以确保服务经济合理。相比之下,70B 模型可以超过每秒 150 个 token。

你还是能盈利的,不是纯亏钱。当然,这取决于良好的优化和工作负载饱和度。对我们的 VC 朋友们来说,对于这种价格的纯 API 服务,不要指望能像传统 SaaS 那样有 80% 的利润率。

除了性能优化,LeptonAI API 在速度、价格、并发、成本等多个参数之间做了平衡,以确保可持续性。

量化将成为标准。各位,忘掉 FP16 吧。Int8/FP8 才是未来。如果你还觉得不舒服,让我告诉你,早些时候 AI 框架还担心精度,甚至支持 FP64。你在神经网络中用过 FP64 吗?

量化需要小心。一个尺度适用于整个张量的时代已经过去了。你需要做 per channel / grouped 的量化以确保准确度不下降。

我大胆预测,405B 的采用仍会受到速度和价格的限制。但我并不担心,因为我预计未来一年左右会有至少 4 倍的效率提升。

我很期待测试 Mistral Large 123B。我们的 Tuna 引擎开箱即用支持 Mistral Large,不过为了尊重研究许可,我们不会提供公共 API。如果你感兴趣,请联系我们。

@karpathy 有一条关于小模型的超棒推文。我完全同意。在垂直应用中,你可能不需要那么大的模型。70B 通常就足够了,很多情况下 8B 通过微调也能很好地工作!

很棒的是,Llama 3.1 允许(并在某种程度上推荐)微调你自己的模型。

我还想给 vLLM 点个赞。我们有自己的引擎,但 vLLM 真的很棒。我们的平台也支持它。

最后,欢迎联系我们进行企业/专用部署。我们相信 AI 不仅仅是 API。Lepton AI构建了一个完整的 AI 云来满足你端到端的需求。

相关内容

我国将加快推进开源体系建设
在今日(6月25日)北京举行的2026开放原子开源生态大会上,工业...
2026-06-26 00:49:39
“AI幻觉”一本正经地胡编...
“AI幻觉”一本正经地胡编乱造,侵权责任谁担? “AI幻觉”指大语...
2026-06-25 09:28:06
杭州钱塘(新)区抢占AI漫...
在键盘上敲下一行指令,短短几秒后,一段15秒的玄幻场景片段便跃然眼...
2026-06-24 19:05:54
聚焦“AI+钢铁”赛道,国...
近日,南京江北新区迎来一场关乎钢铁产业未来的盛事——国家人工智能应...
2026-06-23 22:06:25
城市词元工厂落地 焕新AI...
(图片来源:摄图网) (记者 杜峰)近日,在四川自贡举行的“202...
2026-06-23 19:15:39
AI大模型进入“开源+高效...
中国能否依靠开源,走出一条不同于美国科技巨头依赖海量算力、资本与能...
2026-06-23 19:08:14

热门资讯

2024云栖大会|阿里云升级无... 北京商报讯(记者魏蔚)9月20日,阿里云无影AI云电脑在2024云栖大会上展出,该版本基于最新的终端...
MWC2025荣耀多款AI技术... 人民财讯3月6日电,2025世界移动通信大会(MWC 2025)上,荣耀MagicBook Pro ...
原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
摩尔线程发布AI算力笔记本MT... 钛媒体App 12月20日消息,摩尔线程创始人、董事长兼CEO张建中在摩尔线程首届MUSA开发者大会...
摩尔线程AI生图摩笔马良全新升... 快科技8月7日消息,作为国产GPU的杰出代表,摩尔线程在当下火爆的AIGC浪潮中也推出了自己的软硬一...
微软 Azure AI 语音服... IT之家 8 月 23 日消息,微软Azure AI 语音服务允许开发者构建多语言生成式 AI 语音...
谷歌打磨 Gemini AI ... IT之家 8 月 31 日消息,谷歌于 8 月 27 日发布博文,宣布旗下 Gemini AI 支持...
青云QingCloud Kub... 日前,青云科技宣布开源 Thanos 的企业级发行版 Whizard,为企业带来真正高可用、可扩展、...
Macos系统上一款强大的卸载... App Cleaner mac中文版是Mac os系统上一款强大 的mac卸载工具,以帮助您完全卸载...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...