原创 Cerebras Systems向Nvidia发起挑战,推出“最快”AI推理服务
创始人
2024-08-29 09:13:56
0

在人工智能(AI)计算领域,Cerebras Systems Inc.这家雄心勃勃的初创公司向Nvidia Corp.发起了挑战,推出了它自称的“世界最快”AI推理服务,并且这项服务现在已经在云端提供。

AI推理指的是将实时数据通过训练有素的AI模型运行,以进行预测或解决任务的过程。推理服务是AI行业的主力军,根据Cerebras的说法,它也是增长最快的部分,目前约占云中所有AI工作负载的40%。

然而,现有的AI推理服务似乎并不能完全满足每个客户的需求。“我们看到各种各样的兴趣,关于如何更快、更省钱地完成推理,”首席执行官Andrew Feldman在本周的一次记者会上说。

该公司打算通过其新的“高速推理”服务来实现这一目标。它认为这次发布是AI行业的一个分水岭时刻,声称它能够提供的每秒1000个token的速度,堪比宽带互联网的引入,为AI应用带来了改变游戏规则的新机会。

● 原始力量

Cerebras完全有能力提供这样的服务。该公司是AI和高性能计算(HPC)工作负载的专业和强大计算机芯片的生产商。在过去一年里,它多次成为头条新闻,声称其芯片不仅比Nvidia的图形处理单元(GPU)更强大,而且更具成本效益。“这是GPU无法实现的性能”,联合创始人兼首席技术官Sean Lie宣称。

其旗舰产品是新的WSE-3处理器(如图),该处理器于3月宣布,并建立在其2021年首次亮相的早期WSE-2芯片之上。它采用先进的5纳米工艺制造,拥有比前代芯片多1.4万亿个晶体管,拥有超过90万个计算核心和44GB的板载静态随机存取存储器。据这家初创公司称,WSE-3拥有比单个Nvidia H100图形处理单元多52倍的核心。

该芯片作为数据中心设备的一部分提供,称为CS-3,其大小与小型冰箱相似。芯片本身的大小与比萨饼相似,并配有集成的冷却和电源模块。在性能方面,据说Cerebras WSE-3是WSE-2的两倍,能够达到每秒125 petaflops的峰值速度,1 petaflop等于每秒1000万亿次计算。

Cerebras CS-3系统是新Cerebras推理服务的动力源,它特别具有比Nvidia H100 GPU大7000倍的内存,以解决生成AI的一个基本技术挑战:对更多内存带宽的需求。

● 低成本下的惊人速度

它以风格解决了这一挑战。Cerebras推理服务据说非常快速,比使用Nvidia最强大的GPU的类似基于云的推理服务快20倍。根据Cerebras的说法,它为开源的Llama 3.1 8B模型每秒提供1800个token,为Llama 3.1 70B每秒提供450个token。

它的价格也很有竞争力,这家初创公司表示,该服务的起价仅为每个百万token 10美分——相当于AI推理工作负载的价格性能提高了100倍。

该公司补充说,Cerebras推理服务特别适合“代理AI”工作负载,或者可以代表用户执行任务的AI代理,因为这些应用程序需要不断提示其底层模型。

独立AI模型分析公司Artificial Analysis Inc.的联合创始人兼首席执行官Micah Hill-Smith表示,他的团队已经验证了在Cerebras推理上运行的Llama 3.1 8B和70B实现了与Meta官方版本一致的“质量评估结果”。

“凭借推动性能前沿的速度和有竞争力的定价,Cerebras推理对于具有实时或高容量需求的AI应用程序的开发者特别有吸引力”,他说。

● 分层访问

客户可以选择三个可用层级中的任何一个来访问Cerebras推理服务,包括一个免费提供,为任何想要尝试平台的人提供基于应用程序编程接口的访问和慷慨的使用限制。

开发人员层适用于灵活的无服务器部署。它通过公司表示价格仅为今天可用的替代服务一小部分的API端点进行访问。例如,Llama 3.1 8B的价格仅为每个百万token 10美分,而Llama 3.1 70B的价格为60美分。该公司表示,将支持更多模型。

还有一个企业层,提供微调模型和定制的服务级别协议以及专用支持。这是为了持续的工作负载,并且可以通过Cerebras管理的私有云访问,或者在本地实施。Cerebras没有透露这个特定层的成本,但表示可以根据要求提供定价。

Cerebras声称拥有令人印象深刻的早期访问客户名单,包括GlaxoSmithKline Plc等组织,AI搜索引擎初创公司Perplexity AI Inc.和网络分析软件提供商Meter Inc.。

DeepLearning AI Inc.的创始人Andrew Ng是另一位早期采用者,他解释说,他的公司开发了多个需要反复提示大型语言模型以获得结果的代理AI工作流程。“Cerebras构建了一个令人印象深刻的快速推理能力,这对于这类工作负载将非常有帮助”,他说。

Cerebras的雄心不止于此。Feldman表示,该公司正在与多个超大规模云服务提供商接洽,希望在他们的云服务上提供其能力。“我们希望他们成为客户”,他说,以及像CoreWeave Inc.和Lambda Inc.这样的AI专业提供商。

除了推理服务外,Cerebras还宣布了多项战略合作,为其客户提供访问所有加速AI开发所需的专业工具。其合作伙伴包括LangChain、LlamaIndex、Docker Inc.、Weights & Biases Inc.和AgentOps Inc.等。

Cerebras表示,其推理API与OpenAI的Chat Completions API完全兼容,这意味着现有应用程序只需几行代码就可以迁移到其平台上。

Cerebras Systems的这一举措不仅是对Nvidia的直接挑战,也是对整个AI推理服务市场的一次推动。通过提供前所未有的速度和具有竞争力的价格,Cerebras正在重新定义AI推理服务的标准,也有望成为推动这一领域创新的关键力量。

相关内容

英伟达黄仁勋最新专访:谈美...
凤凰网科技讯 北京时间7月14日,据CNN报道,英伟达CEO黄仁勋...
2025-07-15 10:12:39
原创 ...
当特朗普的关税大棒砸向最亲密盟友时,欧盟连夜修改谈判条款;当中国依...
2025-07-14 23:12:19
Gartner解读2025...
智东西 作者 | ZeR0 编辑 | 漠影 智东西7月14日报道,...
2025-07-14 22:42:45
全球首个 AI 智能体安全...
IT之家 7 月 14 日消息,据蚂蚁技术消息,世界数字科学院(W...
2025-07-14 20:42:37
韩国AI初创公司CEO:目...
【CNMO科技消息】CNMO从韩媒获悉,韩国AI初创企业Liner...
2025-07-14 18:42:15
英伟达:从显卡巨头到AI霸...
文 | 商研所 在二十一世纪的技术史诗中,很少有公司能够像英伟达...
2025-07-14 16:14:03

热门资讯

原创 2... #春日生活好物种草季#近年来,笔记本电脑市场迎来技术爆发期,尤其在手机厂商跨界入局后,轻薄本在性能、...
AMD锐龙AI 9 HX 37... 2024年6月3日,AMD正式发布全新的锐龙AI 300系列处理器。该系列处理器一经发布就引发大家的...
骁龙本这么猛?联想YOGA A... 在人人都是自媒体的时代,一部手机可以解决出镜拍摄问题,而商务出差、大量码字、图像处理等需求用笔记本则...
5个AI模特生成软件推荐 当前AI模特生成软件市场提供了多样化的解决方案,以下是几款备受推崇的工具: 触站AI:强烈推荐!...
2023年CentOS与Ubu... CentOS与Ubuntu的市场格局与技术特性探讨 在服务器操作系统领域,CentOS与Ubuntu...
苹果macOS 15.1:允许... 苹果公司在其最新的macOS 15.1版本中,推出了一项引人注目的新功能——允许用户将Mac App...
原创 苹... 前言 IQUNIX在做好看的桌面产品上,一直都给我留下非常深刻的印象。而且早期和苹果产品的设计风格...
原创 华... 想在竞争残酷的市场中发力,必须要带来一些激进的卖点,但是随着功能特性的提升,硬件也必须要进行给力才可...
原创 华... 在2024年这个被誉为"AI元年"的关键时刻,随着生成式AI的流行,各家手机厂商都在积极备战AI手机...