支撑年夜模子一起狂飙的 Scaling Law 到头了?近期,AI 圈针对 Scaling Law 能否到头发生了不合。一派观念以为 Scaling Law 曾经「撞墙」了,另一派观念(如 OpenAI CEO Sam Altman)依然动摇 Scaling Law 的潜力尚未穷尽。实在以上争辩的中心点在于,年夜模子的机能晋升能否还能持续靠无穷重叠数据跟参数范围从而鼎力出奇观。但是 Scaling Law 并非独一的视角,近期,来自清华年夜学刘知远教学团队发明并提出年夜模子的密度定律(Densing Law)—— 模子才能密度随时光呈指数级增加,2023 年以来才能密度约每 3.3 个月(约 100 天) 翻一倍。这象征着每 100 天,咱们能够用一半参数目实现以后最优模子相称的机能。依据密度定律,研讨团队还得出以下主要推论,而且发明 AI 时期的三年夜中心引擎——电力、算力与智力,都同样遵守密度疾速增加趋向。推论 1 :模子推理开支随时光指数级降落。推论 2 :年夜模子才能密度正在减速加强 。推论 3:模子小型化提醒端侧智能宏大潜力 。推论 4:无奈依附模子紧缩算法加强模子才能密度 。推论 5:模子高性价比无效期一直收缩。该定律还提醒了端侧智能的宏大潜力,并指出将来应连续摸索年夜模子迷信化建立门路,一直改良模子制作工艺,实现年夜模子的高品质、可连续开展。相干研讨结果可参考论文《Densing Law of LLMs》。论文题目:Densing Law of LLMs论文链接:https://arxiv.org/pdf/2412.04315v2Scaling Law 跟 Densing Law年夜模子标准定律(Scaling Law)跟密度定律(Densing Law),都是年夜模子领导性的法则发明。它们分辨在差别的维度,对年夜模子停止迷信化的推演。年夜模子标准定律是一种描写年夜模子跟着范围的变更而产生的法则性变更的数学表白,表示为年夜模子的 Loss 与模子参数范围、练习数据范围之间的幂律关联。标准定律之外,清华研讨团队发明,年夜模子另有另一种器量与优化的空间,才能密度(Capability Density),它为评价差别范围 LLM 的练习品质供给了新的同一器量框架。清华研讨团队提出的「才能密度」(Capability Density),界说为给定 LLM 的无效参数巨细与现实参数巨细的比率。无效参数巨细指的是到达与目的模子等同机能所需的参考模子的参数数目。清华研讨团队特殊引入了参考模子(Reference Model)的观点,经由过程拟合参考模子在差别参数范围下的机能表示,树立起参数目与机能之间的映射关联。详细来说,若一个目的模子 M 的参数目为 N_M ,其鄙人游义务上的机能分数为 S_M,研讨职员管帐算出参考模子要到达雷同机能所需的参数目 N (S_M),即「无效参数目」。目的模子 M 的密度就界说为这个「无效参数目」与实在际参数目的比值:比方一个 3B 的模子能到达 6B 参考模子的机能,那么这个 3B 模子的才能密度就是 2(6B/3B)。为了正确估量模子机能,研讨团队采取了两步估量法。第一步是丧失(Loss)估量,经由过程一系列差别范围的参考模子来拟合参数目与言语模子 Loss 之间的关联;第二步是机能估量,斟酌到出现才能的存在,研讨职员联合开源模子来盘算它们的丧失跟机能,终极树立起完全的映射关联。经由过程研讨剖析比年来 29 个被普遍应用的开源年夜模子,清华研讨团队发明,LLM 的最年夜才能密度随时光呈指数增加趋向,能够以下公式来描写,此中 ρ_max 是时光 t 时 LLM 的最年夜才能密度。密度定律标明,大概每过 3.3 个月 (100 天),咱们就能用参数目减半的模子到达以后开始进模子的机能程度。基于密度定律,清华研讨团队提出了多个主要推论。起首,模子推理开支随时光指数级降落。2022 年 12 月的 GPT-3.5 模子每百万 Token 的推理本钱为 20 美元,而 2024 年 8 月的 Gemini-1.5-Flash 模子仅为 0.075 美元,本钱下降了 266 倍,约 2.5 个月降落一倍。与此同时,年夜模子推理算法一直获得新的技巧冲破:模子量化、投契采样、显存优化 。其次,研讨还发明,自 ChatGPT 宣布以来,年夜模子才能密度正在减速加强 。以 MMLU 为评测基准丈量的才能密度变更情形,ChatGPT 宣布前依照每 4.8 月倍增,宣布后依照每 3.2 月倍增,密度加强速率增添 50% 。这一景象背地,更高效模子惹起了学术界跟工业的普遍存眷,出生了更多高品质开源模子。再次,芯片电路密度 (摩尔定律) 跟模子才能密度 (密度定律) 连续加强,两条曲线交汇提醒端侧智能宏大潜力。研讨表现,在摩尔定律的感化下,雷同价钱芯片的盘算才能每 2.1 年翻倍,而密度法令标明模子的无效参数范围每 3.3 个月翻倍。两条曲线的交汇,象征着主流终端如 PC、手机将能运转更高才能密度的模子,推进端侧智能在花费市场遍及。别的,团队指出,无奈仅依附模子紧缩算法加强模子才能密度 。现有的模子紧缩技巧(如剪枝跟蒸馏)未必能进步模子密度。试验标明,年夜少数紧缩模子的密度低于原始模子,模子紧缩算法虽能够节俭小参数模子构建开支,然而假如后练习不充足,小参数模子才能密度将会有明显降落。最后,研讨团队指出,模子高性价比无效期一直收缩。依据标准定律,更少数据 + 更多参数实现才能加强,练习本钱会急剧回升;而才能密度定律,跟着才能密度减速加强,每隔数月会呈现愈加高效的模子。这象征着模子高性价比的无效应用期收缩,红利窗口长久。比方,2024 年 6 月宣布的 Google Gemma-2-9B 模子,其练习本钱约 185 万国民币,但仅两个月后,它的机能就被参数目减半的 MiniCPM-3-4B 超出。以 API 红利方法预算,2 个月内须要 17 亿次用户拜访,才干够收回练习本钱!Densing Law(密度定律)提醒 LLM 进入「密度至上」新开展阶段标准定律下,LLM 范围至上。而在密度定律下,LLM 正进入一个全新的开展阶段。在清华刘知远教师最新讲演中,AI 时期的三年夜中心引擎 —— 电力、算力与智力,密度都在疾速增加:电池能量密度在从前 20 年中增加了 4 倍,其倍增周期约为 10 年;摩尔定律则提醒,芯片的晶体管密度每 18 个月翻倍;而 AI 模子才能密度每 100 天翻倍的速率更是惊人。尤其是模子才能密度的晋升也象征着用更少的资本实现更强的才能,这不只下降了 AI 开展对动力跟算力的需要,也为 AI 技巧的可连续开展供给了无穷可能。同时也提醒了端侧智能的宏大潜力 。在这一趋向下,AI 盘算从核心端到边沿真个散布式特征协同高效开展,将实现「AI 无处不在」的愿景。跟着寰球 AI 盘算云端数据核心、边沿盘算节点的扩大,加上模子才能密度增加带来的效力晋升,咱们将看到更多当地化的 AI 模子出现,云端跟边沿端各司其职,可运转 LLM 的终端数目跟品种年夜幅增加,「AI 无处不在」的将来正在到来。??THE END?转载请接洽本大众号取得受权投稿或追求报道:[email protected]]article_adlist--> 申明:新浪网独家稿件,未经受权制止转载。 -->[db:摘要]