智通财经APP获悉,湘财证券发布研报称,DeepSeek降低了算力卡门槛,阿里巴巴有望引领国内新一轮AI算力资本开支周期;DeepSeek降低了大模型训练门槛以及推理调用价格,有望推动优质AI应用的繁荣;DeepSeek降低了端侧小模型部署门槛,有望推动端侧AI应用发展。维持电子行业“增持”评级,建议关注AI算力和AI应用板块投资机会。
湘财证券主要观点如下:
DeepSeek达到2000万日活
根据量子位智库3月4日公布的中国AI智能助手,DeepSeek 2月平均日活数超2300万,约为第二名豆包的2.3倍,为第三名Kimi的6倍多。2025年2月,平均每天有4600万用户在使用AI智能助手APP,较1月翻倍,增长主要来自DeepSeek和腾讯元宝。而腾讯元宝也是因为接入了DeepSeek才能在短期内获得巨大流量。
通过一系列工程创新,实现成本的降低和效率的提升
DeepSeek通过一系列工程创新,实现了成本的降低和效率的提升,其技术创新主要有以下四点:
1、对MOE架构的创新:在MOE架构中,DeepSeek将每个专家进一步分割成更小的专家单元,提高了专家的专业化程度,从而让模型可以更好地适应不同的输入,增强其处理复杂任务的能力,并且可以降低计算冗余,提高推理效率。DeepSeek在每层中引入了共享专家,这些专家始终被激活,负责捕捉不同上下文中的通用知识(如语法、基础逻辑等)。通过将通用知识压缩到共享专家中,其他路由专家可以专注于更细粒度的特定任务知识表达,减少冗余参数。
2、采用了MLA (多头潜在注意力)机制:DeepSeek对传统的多头注意力(MHA)进行了优化,提出了多头潜在注意力(MLA)机制。MLA的核心思想是通过低秩联合压缩,将传统MHA中的键和值矩阵压缩为低维的潜在向量,从而大幅减少KV缓存的存储需求,同时提高推理效率和吞吐量。相比传统MHA,MLA能在保持或提升模型性能的前提下降低计算和内存资源的消耗。
3、应用了FP8(8位浮点数)混合精度训练:传统上,大模型训练使用32位浮点数(FP32)格式来做计算和存储,这能保证精度,但计算速度慢、存储空间占用大。DeepSeek则构建了FP8混合精度训练框架,根据不同的计算任务和数据特点,动态选择FP8或FP32精度来进行计算,把训练速度提高了50%,内存占用降低了40%。
4、提出了GRPO算法:2024年下半年之后,业内普遍认为,大模型性能提升的重要技术方向是强化学习。DeepSeek更上层楼,推出新的强化学习算法GRPO( Group Relative PolicyOptimization组相对策略优化),在显著降低计算成本的同时,还提高了模型的训练效率。
DeepSeek降低算力门槛,看好910C需求
DeepSeek的训练和推理都是在少量H800上完成的,相比于国外先进模型,降低了大模型的训推算力要求。根据Tom’s Hardware的报道,华为910C是一款完全自主研发的芯片,采用中芯国际7nm N+2工艺制造,拥有530亿个晶体管,910C的推理性能相当于Nvidia H100 GPU的60%。随着DeepSeek的广泛部署,推理算力需求快速增长,在H20存在被禁风险的背景下,910C国产替代空间广阔。
Manus预示AIAgent发展方向,AI应用百花齐放
Manus能够直接理解用户自然语言指令,将复杂任务拆解为规划、执行、验证三个阶段,调用工具链(如编写Python代码、浏览网页、操作应用)完成全流程操作,并交付完整成果(如生成Excel报告、PPT等)。作为全球首款通用AI智能体,Manus的产品完整度超越竞品,展现了AIAgent的巨大应用价值,指出了AIAgent的发展方向。ima提供个人知识管理的云端方案,实现了碎片化知识的保存整理,在接入DeepSeek后,ima展现出了强大的个人知识库价值。生成式AI已使游戏开发效率提升,尤其在美术、编程、测试等环节实现了降本增效。在制药领域,生成式AI在靶点识别、药物设计等领域均有着较好的表现。当前AI应用呈现百花齐放的状态,DeepSeek诞生后,凭借低成本和高性能的优势,将推动AI应用进一步的发展。
风险提示
AI算力资本开支不及预期;AI应用开发不及预期。
来源:智通财经网