手机实现GPT级智能,极致的稀疏技术

2025-04-12 02:25:27 · chineseheadlinenews.com · 来源: 量子位

在大模型争霸的时代,算力与效率的平衡成为决定胜负的关键。

端侧部署一直是大模型落地的最后一公里,却因算力瓶颈困难重重。

面壁智能和清华走出了一条与MoE不同的路径——神经元级稀疏激活,让模型在保持性能的同时大幅降低资源消耗。

这次技术探索的背后,是一个融合脑科学灵感与工程创新的故事。

△《Configurable Foundation Models: Building LLMs from a Modular Perspective》论文

本期“大模型创新架构”主题访谈,量子位邀请到面壁智能&清华CFM论文作者肖朝军,聊聊这场算力与效率的博弈以及大模型架构创新的未来。

以下为量子位与面壁智能&清华CFM论文作者肖朝军的对话实录整理:

探索原生稀疏

量子位:能简单介绍一下CFM(Configurable Foundation Models)技术的核心优势吗?

肖朝军:CFM是一种原生稀疏技术,利用模型本来就有的稀疏激活性质,相比MoE可以极大提升模型参数效率。

量子位:参数效率是什么?极大提升参数效率意味着哪些优势?

肖朝军:参数效率是指模型单位参数的有效性,一般能够反映在相同参数规模下,模型是否表现更好。参数效率提升最直接的影响就是省显存、省内存。

尤其手机端不可能像云端一样用好几台GPU服务器一起推几千亿参数规模的模型。手机内存有限,操作系统占一部分,个人应用需要一部分,如果大模型把内存占满,那手机基本上就不可用了,所以参数效率在端侧应用里非常重要。

量子位:CFM与MoE(Mixture of Experts)的区别在哪里?

肖朝军:我们的稀疏粒度更细,更强调神经元级别的稀疏,可以说CFM的颗粒度比其他许多在FFN层做稀疏化改进的工作要更细,在稀疏化上走得更极致。

现在超大参数规模的MoE稀疏化可能已经成为主流,但不适合端侧。MoE的稀疏粒度是专家级别,CFM是神经元级别,而且CFM动态性也强于MoE。MoE固定激活Top k个expert,CFM是靠模型自己的激活函数来定义具体激活多少expert。

任务难的话可能需要激活10-100个,任务简单可能就激活1-2个。

△CFM积木式组合构建高效任务模型

量子位:为什么MoE不使用你们这种更强的动态性?

肖朝军:本质是参数效率原因。

MoE的目的是增大模型参数,比如600B的模型无法在一台机器上放下,必须在训练过程就卡死激活专家的数量,必须限制住最多激活top k或top p个专家,要不然就可能算不下了。

他们必须在训练阶段就要有负载均衡的loss,使每个expert和每个token大致均衡。而我们参数效率高,所有参数可以放在一起像传统稠密模型的FFN一样计算。

△涌现模块的形成过程示意图

模型架构之争

量子位:你怎么看待像Mamba、RWKV这些计算复杂度为线性的非transformer架构模型带来的挑战?

肖朝军:从模型效果上来说,transformer仍是天花板最高的架构。当前所有其他的非transformer架构探索都是在做效率,而不是效果。

我观察目前优化路径大概有两种:

一种是线性派,包括Mamba、Linear Attention、Gated Linear Attention、RWKV等;

另一种是基于transformer,但对KV cache做管理,比如KV eviction、KV compression等。做FFN改进的其实不多,我们强调的稀疏可能是FFN改进中非常重要的一点。

量子位:很多非transformer架构都在多个测试集上打败了主流transformer模型,你怎么看?

肖朝军:需要辩证看待。

首先要考虑公平性,比如Mamba实际上有固定的memory,在短文本时可能memory size更大,这可能是用更多存储换取包好效果。

像RULER等一系列长文本评测中,线性模型目前还是打不过transformer。大家报的结果都是”在某方面比transformer好”,但为什么没有广泛应用?因为没办法全面打败transformer。

量子位:今年1月份大模型六小强中的一家训的千亿参数线性attention模型在RULER上打败了GPT-4o、Claude-3.5-Sonnet等transformer模型,你怎么看?肖朝军:他们的模型是混合架构,纯线性很难做到同样的表现。但能有这样的成绩说明他们混合之后的效果还是很厉害的。

量子位:如何才能客观评价模型架构之间的优劣?

肖朝军:确实很难有一个放之四海而皆准的评判方式。transformer之所以取代CNN和RNN成为主流,是因为它真的能scaling。

之前的架构是scaling不了的,transformer带来了一种新可能性:我们可以训练很大的模型,用很多数据获得更多智能。而且它不需要任何trick,不需要人为调参就能获得好效果。

量子位:你认为transformer成为主流架构有偶然性吗?

肖朝军:既有偶然性也有必然性。有个概念叫“硬件彩票”。

软件往往走在硬件前面,我们会开发很多算法,但真正实现加速的是被硬件厂商选中的那种。transformer高强度对着GPU设计,真能打满GPU利用率,所以踩中了硬件彩票。

现在的Mamba、RWKV谁能踩中下一波硬件彩票,谁也说不准。

△硬件彩票内涵

小模型与智能未来

量子位:目前一个小模型的定义是多大size?最小能在什么尺寸的模型里压缩进主流大模型的能力?这个极限在哪?

肖朝军:现在小模型的大小没有明确定义,基本上端侧的话,可能还是在2-3B的范围算小模型。

关于模型压缩极限,我们发表过Densing Law的论文,但极限在哪里我们确实还不知道。很多人问未来是不是用64个比特就能放下GPT-4,那显然不可能,但具体极限还不明确。

量子位:智能的本质是压缩吗?

肖朝军:这样说有点怪。之前有一篇“语言模型即压缩”的论文,只是把压缩率和PPL做了转换,这很难说成本质。

Ilya最早提出智能本质是压缩这个思想的时候,强调的是“压缩器”能够很好地建模数据分布规律,而不是直接用语言模型来构建数据压缩器。

Hinton说过,智能的本质是学习,就是学习能力才是智能的本质。我认为抽象能力可能更接近智能本质。你看语言本身就是一种符号,能表征世间万物,承载人类知识,是抽象和总结的载体。

量子位:面壁智能的小模型落地情况如何?

肖朝军:我们开源的最大模型是是MiniCPM-3-4B,也有一些未开源的项目级模型可能有几十B。

我们的端侧场景很广泛,包括手机端、电脑端、智能家居等都在射程范围。

△面壁智能官网

量子位:精度优化方面,你们怎么看FP8等低精度计算?

肖朝军:精度降低后模型效果会变差,需要非常多的设计才能保证效果。

但现在DeepSeek已经开源FP8算子部分了,只要跟着做一些补全就行,现在再训新模型的只要有卡肯定都上FP8了,25年会更多人做FP8,做的更实用更激进。未来还会有FP4,一步步发展。

量子位:小模型在多模态方面有限制吗?

肖朝军:效果都挺好的。小模型在多模态这块,从打榜上看差异没有那么大。你会发现多模态现在还没有一个非常漂亮的scaling law。

而且也还没有一个统一共识的多模态模型架构。知识能力上,小模型可能还有差距,差距主要体现在对知识的调度和理解上。

量子位:你怎么看o1的这条技术路线?

肖朝军:o1主要是用强化学习和高质量数据,强调强化学习和推理的scaling。当前强化学习整个推理过程很慢,硬件利用率也不高,这会使强化学习过程需要使用大量算力但模型思考步数不深、探索空间不够。

未来肯定会继续往高效的深思考方向发展,让模型能够生成超长的思维链,之后会像pre-training一样,先把强化学习的训练规模做上来,然后再往小做、往高效做。

量子位:超长文本推理会是transformer架构的下一个突破点吗?

肖朝军:对,CoT(思维链)是目前很重要的方向。这种长思考一定是下一波大家要突破的点。

目前o1这种长思维链和普通的长文本大海捞针完全不同。大海捞针只是找到信息就完事了,而o1的长思维链需要回到当时的状态,重新做推理、重新搜索。

思考的时候走一条路走到底之后,可能还要继续之前考虑过的另一条路。现有测试集都很难全面评测o1这种长思维链能力。

△直接推理与思维链区别示意

o1之后,我觉得下一步还有一个很重要的问题是创新能力的问题。就像OpenAI的技术规划,到后面有个innovation。

现在的搜索还是在已有的语义空间去搜索,但是真的要让AI去做创新出之前没有的东西,去探索一些新的未知的事物的时候,它一定要跳出之前预训练阶段见过的所有的东西去突破,但这个事情咋做?还不知道。

量子位:对于长文本推理,线性架构会有优势吗?

肖朝军:目前没有实证研究证明纯RNN模型的推理能力,我个人认为类RNN的线性架构技术路线大概率会失败,混合架构另当别论。

效果为王,解决不了效果问题,谈效率是不现实的。

现有RNN模型其实等价于滑动窗口,在推理中会对记忆不断乘一个遗忘系数。即使遗忘系数连续一万步都是0.999这么大,那一万步之前的内容也会遗忘完,上限天然太低。

量子位:大模型不可能三角(大模型无法同时实现低计算复杂度、高性能和并行化)问题有解决方案吗?

△大模型不可能三角示意

肖朝军:这个问题依旧存在,Mamba也依然没有解决。如果真解决了,现在大家都会用起来。

Mamba等线性模型在短文本上能与transformer打平或更好,但长文本上仍有压缩,而压缩一定代表信息损失。我们还是无法兼顾计算复杂度和效果。

这个问题也许长期来看可以解决,因为人类思考也不是O(n?)复杂度的,不需要把之前所有KV都算一遍。但人脑存储可能是分级的,有长期记忆和短期记忆,还可能利用外部工具如笔记本。具体怎么解决,目前还没有摸到答案。


    24小时新闻排行榜更多>>
  1. 被指“妨碍”总统驱逐移民 新泽西州长遭调查
  2. 女子花6000多万贵州买地“中招”,十多年来退不了款?
  3. 中方驳斥荷方动议:强烈不满、坚决反对
  4. 南非直升机升空不久即坠落 企鹅成祸首?
  5. 中共军方急喊四字 美国隐秘战略发威
  6. 拒绝在野外发生关系 女教师被同居11年男友杀害
  7. 中国准备进行核弹级报复!传习拍板 专家曝下场
  8. 吴建民:习近平“踩油门”对抗川普 经济危机迫在眉睫
  9. 画好水彩风景画:探索自然之美
  10. “希望我错了 但我相当悲观” 4位经济学家深入剖析…
  11. 男子住院捅伤同病房父子,跳楼身亡
  12. 关税逆转内幕:这人让川普急转弯?
  13. 未来世界的中国与真实的中国
  14. 川普连发7文呼吁冷静
  15. 布兰登预言: 瘟疫源自欧洲 将有3.5亿人死亡(图/视频)
  16. 哪吒汽车8年花光300亿!车主索赔无门
  17. 白宫:若中共继续报复 将对其不利
  18. 中国迅速下单,购买规模异常庞大
  19. 看清黄金、美债、美元的共同逻辑
  20. 中国准备进行核弹级报复?
  21. 唐尚珺又被举报,本人回应
  22. 美国施压墨西哥“不供水,就加税”,墨总统回应了
  23. 古怪的规定:探访河北三河招牌颜色“禁令”背后
  24. 国家要给这个群体发钱了
  25. 不祥三元组!为何本周美国资本市场特别让人担忧
  26. 英国青少年手绘1300页翻页书 破世界纪录
  27. 关税不得人心?川普在关键选民群体中支持率惨跌
  28. 北京14级大风数百树木倒伏 市民抢购物资
  29. 手机实现GPT级智能,极致的稀疏技术
  30. 川普“这张王牌”一出 中共权贵会跟习近平拼命
  31. 【时事军事】嘉手纳基地战略升级 释强烈信号
  32. 温家宝:不懂得历史就没有美好的未来
  33. 中共贪官藏钱花样百出 重要原因是“这一条”(图/视频)
  34. 协议落地!美军将进驻巴拿马运河沿线
  35. 中国称美国是21世纪野蛮人 “别想等到习近平电话”
  36. 川普签署备忘录 授权军方管理美墨边境土地
  37. 白宫上演“关税内斗”:美国反对美国
  38. 中国孩子有多累,高中生周学近60小时
  39. 川普特使3度访俄与普京会谈逾4小时 1提议惹争议
  40. 币安创始人同意向检方提供证据
  41. 与薄毕瓜联姻涉非法器官移植?罗东博爱医院驳斥
  42. 梦境中的星图 尤努的预知之旅
  43. 分析:关税战后将是货币战 中共遇外汇安全问题
  44. 对外输出性贿赂 传中共有“红色娘子军计划”
  45. 绿营共谍案再加1 国安会秘书长前助理涉共谍案
  46. 川普特使3度访俄与普京会谈逾4小时 他提议:仿效2战后德国
  47. 马斯克“公开呛声”川普政府
  48. 中美关税战迷思 认为北京可取代美国 法总理:非常危险
  49. 算法时代的人类自由
  50. 【翻墙必看】北京“上演”灾难恐怖电影
  51. 一台“纯美制造”的iPhone,需要几颗肾?
  52. 美国人在关税恐慌中抢购哪些意想不到的东西?
  53. 纽约直升机坠毁 西门子高管全家遇难 事发前合照曝光
  54. 台商走了 厦门衰败!商铺纷纷倒闭;500万人离开 厦门成空城!大街小巷不见人影
  55. 杭州狂风刮落小区外立面,有人被砸
  56. 奥利里:美国须“像训狗一样”对待中共
  57. 陆若攻台,7-Eleven“战时据点”发口粮
  58. 灵魂离开身体 游历死后的世界
  59. 中共间谍渗透台湾无处不在
  60. 川普“关税豁免产品清单”曝光