新榜讯 2月4日消息,腾讯混元AI Infra团队今日正式推出开源生产级高性能大语言模型(LLM)推理核心算子库HPC-Ops。据腾讯混元介绍,在实际应用场景中,借助HPC-Ops,混元模型推理的每分钟查询量(QPM)提升了30%,DeepSeek模型QPM提升17%。此外,在单算子性能表现上,HPC-Ops成果显著:其实现的Attention算子性能较FlashInfer/FlashAttention最高提升2.22倍;GroupGEMM算子相比DeepGEMM最高提升1.88倍;FusedMoE算子较TensorRT-LLM最高提升1.49倍。