出品|搜狐科技
作者|郑松毅
编辑|杨锦
华为与苹果“秋日比武”落幕,修图、翻译…这些出现在终端设备上的AI功能有成功吸引到你吗?
在上手体验前,且不过多评价各家AI功能优劣,但值得注意的是,有一些人正在埋头深研端侧模型部署,挖掘其背后蕴藏的潜在商业机会。
人工智能发展的下一步是什么?也许,从这里我们已经找到了答案——把大模型塞进手机、电脑等智能终端设备里。
近日,硅谷斯坦福端侧模型研发明星企业Nexa AI的两位创始人,联合Meta AI科学家等技术研究者共同发文,对端侧大模型应用潜力和价值进行了深入解读。
说起Nexa AI这家硅谷明星企业,别看成立时间只有一年,交出的产品答卷却引发了硅谷AI圈子的广泛关注。
Nexa AI由两位来自斯坦福大学的“95后”共同创立,可谓是年少有为。
创始人兼首席科学家陈伟,曾担任斯坦福华人创业协会的主席。联合创始人兼首席技术官李志远,在谷歌和亚马逊实验室拥有4年端侧AI的一线研发经验。他们还都曾担任过斯坦福CEO协会主席。
斯坦福大学副教授、斯坦福技术创业项目副主任Charles (Chuck) Eesley担任顾问,为团队提供指导和支持。
抛开豪华团队,其在产品“硬实力”方面让人不容小觑。
就在大家都在AI大模型战场“拼刺刀”时,Nexa AI另辟蹊径,沿着“小而美”的技术路线从中突围而出。
今年年初,NEXA AI(https://nexaai.com)推出的Octopus-V2模型轰动一时,这款模型曾在huggingface(开源模型库)全球60万模型中位列第二,在函数调用性能上超越了GPT-4。今年八月,这个团队又发布了Nexa AI开源端侧AI模型库和SDK,能够让开发者快速便捷地使用端侧模型进行开发。该产品现已对公众开放测试(https://github.com/NexaAI/nexa-sdk)。
值得一提的是,前不久搜狐科技《10个硅谷华人的AI见闻》系列报道对话的Meta AI科学家许家骏,也是这篇论文的共同作者。
端侧AI:更快、更安全
近年来,人工智能技术飞速发展,先后见证了ChatGPT、Gemini、文心一言等一系列AI大模型的迅速崛起。
我们常说的人工智能实际上分为两大技术分支,分别是“云侧AI”和“端侧AI”,以上提到的这些耳熟能详的大模型均属于“云侧AI”范畴。
“云侧AI”具备处理大规模数据计算的优势,但随着模型规模不断增大,云端推理成本高、网络延迟高、用户数据隐私等问题引发关注,在一定程度上对用户体验造成了限制。
因此,“端侧AI”的部署开始发力,希望能将大模型直接部署在终端设备上,比如手机、电脑、汽车等。
“端侧AI”不仅可以在设备上直接运行算法,提高服务器响应速度,还避免了数据需要传输到远程服务器,从而更好地保护用户隐私。
论文《On-Device Language Models: A Comprehensive Review》指出,“全球市场已经嗅到了这个巨大机遇,预计到2032年,端侧AI市场规模将从2022年的152亿美元飙升到1436亿美元。这意味着从你的智能家电到自动驾驶汽车,各行各业都将被这项技术改变。”
把模型越做越小
如果说在AI模型发展初期,比的是谁家能把模型做的更大,如今的一项竞争则是谁能在保证性能的情况下把模型做得更小,小到能塞到终端设备中满足个性化需求。
研究数据应证了这个判断,自2023年起,参数量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi等“小模型”涌现。进入2024年后,新模型的推出越发密集,Nexa AI、苹果、谷歌、智谱AI等海内外厂商在该赛道持续发力。
荣耀产品线总裁方飞也在最近与搜狐科技对话时表示,端侧模型会越做越“小”,往更加集成化、更加高效的方向演进。“现在的小模型,能力相当于原来非常大的模型。”
在6月份的华为开发者大会上,“鸿蒙NEXT”终端操作系统正式发布,有了盘古大模型5.0的加持,其AI能力得到明显提升。
另一“重磅玩家”苹果也不甘落后,其在WWDC24上宣布与OpenAI建立合作关系,并整合ChatGPT技术推出Apple Intelligence,让用户在终端设备上体验到跨应用的智能协作。
值得一提的是,这些模型在精缩的同时并没有忽略性能表现,无论是文本能力还是多模态能力都展现出了新的可能性,并不断根据用户需求优化。
然而,在有限的端侧资源上部署这些模型并非易事,面临内存和计算能力的双重挑战。
研究论文共同作者、Nexa AI联合创始人兼首席技术官李志远向搜狐科技介绍,“端侧AI目前面临的最大问题是模型能力不够,在技术上还没能实现让10B(百亿)参数规模以下的模型拥有和千亿参数规模的大模型一样的推理能力。”
为此,科学家们提出以下四点创新思路来应对这些挑战:量化、剪枝、知识蒸馏和低秩分解。
这些方法通过在性能、内存占用和推理速度之间找到平衡,确保AI模型在端侧应用的可行性。
举例来看,假如你有一幅用1600万种颜色绘制的画作,“量化”就是用256种颜色重画这幅画,虽然损失了一些细节,但画面仍然清晰可辨,而文件大小大大减少。
“剪枝”是指去掉模型不必要的参数,让模型变得更苗条但仍然聪明。
而“知识蒸馏”和“低秩分解”指的是把复杂的问题拆分成一系列易于解决的小问题,并且更强调学习知识精华,不苛求掌握全部细节内容。
硬件方面,GPU和TPU等专用硬件提供了强大的计算能力和高内存带宽,例如英伟达的Tensor Cores以及Google TPU的高效矩阵乘法能力,为模型训练提供了强有力的支持。
研究人员表示,“软硬协同设计的方法,不仅提升了端侧AI的部署效率,同时对部署成本起到了优化作用。”
被视作“杀手锏”
如今,端侧AI已在智能手机、PC、汽车、XR等众多领域得到落地应用,一众终端厂商也将其直接视为打出产品差异化的“杀手锏”。
从当前来看,“端侧AI”的应用价值还未完全展现,但不可否认的是,其将成为终端设备智能升级的关键驱动力。
想象一下,在没有网络的情况下,你也可以用终端设备与AI进行问答交互,或是随时随地用AI识别或生成图片。
再或是出国不用再担心语言沟通问题,端侧AI用更快的响应速度让“翻译官”随时待命。
在汽车这样的大型终端设备上,端侧AI也将进一步发挥作用,提高自动驾驶的安全性,让车辆更好地理解复杂路况。
正如研究者所说,“端侧AI正在潜移默化地改变我们与技术的交互方式,它让设备更贴心、更智能、也更懂我们的需求。”
华为也好,苹果也罢,端侧AI部署必将成为这些科技巨头的又一竞技场。对于消费者而言,有AI加持的新一代智能终端设备值得狠狠期待下。