在端侧AI计算领域,一个核心的设计难题长期困扰着业界:如何在硬件架构的“灵活性”与“效率”之间找到最佳平衡点?安谋科技最新发布的“周易”X3 NPU通过创新的DSP+DSA融合架构,为这一行业难题提供了令人瞩目的解决方案。
一、架构革新:“混合动力”式的智能计算引擎
传统NPU设计往往陷入两难境地:专注于DSA虽能获得极致效率,但缺乏应对算法演进的能力;而采用DSP虽具备良好灵活性,却在能效比上表现不佳。
“周易”X3的创新之处在于将二者完美融合。安谋科技NPU产品线负责人兼首席架构师舒浩博士形象地比喻道:“这就像汽车的混合动力引擎,既有燃油发动机的高效,又具备电动机的灵活。”
在这个创新架构中,两个核心计算单元各司其职。AIFF引擎作为DSA的化身,专注于处理Transformer等大模型中高频、重度的计算任务,如矩阵乘法和LayerNorm操作,确保基础算力的极致效率。TEC则承担DSP角色,以其通用向量计算能力,应对种类繁多的Vector计算任务,保障了整个架构的灵活性和适应性。
二、突破性能瓶颈:软硬协同的深度优化
DSA+DSP的架构设计带来了显著的技术优势。在当前大模型应用中,虽然Tensor计算占据了约70%的计算量,但剩下的30% Vector计算却涉及四倍以上的计算类型,其复杂性不容忽视。
“周易”X3通过提供图灵完备的指令集和专门为AI模型设计的约1200条向量指令,彻底消除了Vector计算可能带来的性能瓶颈。以Transformer模型中的关键Softmax算子为例,通过DSP和DSA的深度协同优化,实现了10倍的性能提升。
更值得关注的是,该架构通过集成专用硬化调度器,将NPU在并行处理多项AI任务时对主CPU的资源占用降低至惊人的0.5%。这意味着NPU几乎实现了“自给自足”,能够将宝贵的CPU资源释放给其他应用,真正实现了高效的异构计算。
三、面向未来的端侧AI算力底座
“周易”X3的DSP+DSA融合架构不仅解决了当前端侧AI面临的计算灵活性问题,更为大模型在终端设备上的部署提供了新的可能性。其单Cluster 8-80 FP8 TFLOPS的可灵活配置算力,结合高达256GB/s的单核带宽,为基础设施、智能汽车、移动终端、智能物联网四大领域提供了强大的AI计算核心。
随着AI算法的持续演进,这种兼具灵活性、高效性和系统级优化能力的架构设计,将有效加速边缘及端侧AI的规模化部署。“周易”X3所展现的技术路径,不仅重新定义了端侧AI计算效率的新标杆,更为整个行业的发展方向提供了重要启示:在追求算力提升的同时,架构的智能平衡与系统级优化同样至关重要。