小模型入场 AI轻装上阵成为可能

更新时间:2024-05-08 01:57:25作者:无忧百科

小模型入场 AI轻装上阵成为可能

21世纪经济报道记者孔海丽、实习生邓熙涵 北京报道

大模型浪潮轰轰烈烈,“小模型”另辟蹊径——参数小、占内存少、反应速度快、可以本地化运行。

近日,微软推出了SLM(小语言模型)Phi-3系列,在多项基准测试中比肩大模型能力。微软强调Phi-3的高性价比,“便宜得多,但响应能力接近比它大10倍的模型”,号称能力对标GPT3.5,并称Phi-3是目前同类中最强大且最具成本效益的小型语言模型。

苹果也紧随其后公布了“小模型”家族——四款预训练的大模型OpenELM,体量极小,宣告离“让人工智能在苹果设备上本地运行”的目标更近一步。

巨头们的新动作体现了AI竞赛的另一个分支。以小模型降耗增能,在性能、安全性等维度追平大模型,加速AI在终端设备的普及。

未来,大小模型混搭,以合适的模型匹配对应,成为用户实现AI诉求的可取路径。

“在一些特定场景中,经过精调后的小模型,其使用效果甚至可以媲美大模型。”百度创始人、董事长兼首席执行官李彦宏近日就曾有过论断:“未来大型的AI原生应用将主要采用大小模型混合使用的方式,根据不同场景选择适合的模型。”

IBM中国数据与人工智能首席架构师徐孝天在接受21世纪经济报道记者采访时指出:“具体到应用层面,如果应用考虑的是通用AIGC,那么目前的大模型能力会更广;但如果是专有的某个领域,小模型其实是非常好的选择。”

“最近一两年内,小模型与大模型并存时生成式AI更合适的发展格局,但更长远看,可能会有更经济高效的模型结构取代当前Transformer为主的大模型,比如KAN(Kolmogorov–Arnold Networks)模型结构。”徐孝天也提出了另一种设想。

实际上,现行大模型Transformer框架,的确被业内认为走到了瓶颈期,小模型作为一条高效分支,提供的是实用化捷径,而要想达成AIGC,还有更远的路要走。

以小搏大,初显优势

对于什么是小模型,AI界尚无标准化界定,但业界普遍认同小型语言模型是大语言模型的简化版本。

小模型被视为“瘦身版”的大模型,参数更少,一般参数量介于几百万元素至几千万元素,有些模型参数量达到上亿元素,模型结构也更简单。根据中工互联创始人智振的观点,10亿~30亿参数的模型,应该被称为轻量化大模型。

实际上,大模型门槛高企是一些厂商转投小模型的动因。目前GPT-4是唯一突破万亿级参数的大模型,市面上大部分开源大模型多为十亿或百亿级别。

究其原因,基于“大数据、大算力、强算法”的大模型的大规模预训练是一项烧钱的竞赛。咨询研究公司Semi Analysis曾指出,排除故障、微调等诸多因素,GPT-4单次训练成本也高达6300万美元。

算力荒是大模型的困境之一,千亿参数大模型部署在云端服务器,占据庞大算力资源。研究机构Epoch AI数据显示,训练尖端模型所需的算力每6到10个月就会翻一番。

“错失恐惧”驱动下,任何一家想在AGI赛道博出位的企业都需要持续迭代,优化参数,比拼性能,而运行巨型模型的显卡、芯片等不可或缺,核心技术资源近乎被巨头垄断。

目前,已发布的大部分NLP大模型技术,都是基于谷歌的Transformer技术架构,谷歌已对其进行专利保护。种种迹象表明,大模型技术属于技术完备的科技巨头,行业马太效应明显。

面对这场成本与基建较量,科技公司开始寻觅其他路径。小模型的登场降低了模型推理训练、算力部署的高昂成本,而巨头们显然有更深入的战略考量。

2024年将是大模型走向落地应用的关键之年,小模型最显著的优势在于其能适合具体应用。国内一位AI创企人士告诉21世纪经济报道记者,如果说大模型是一辆能量强但笨重的机甲战车,小模型则是一台小巧玲珑的小型武器,“射程”集中,所需数据更少,一旦锁定特定场景,便能以高效取胜。

此外,就大模型存在的严重缺陷——“幻觉”而言,小模型虽尚不能破解人工智能模型应用固有的幻觉难题,却能“专注”学习某个狭窄领域的数据,降低不相关、意外或不一致输出的风险。

巨头淘金,错位竞争

对大模型趋之若鹜的巨头们开始青睐低参数的小模型,始于去年上半年。比如谷歌定制的PaLM2轻量级选手“壁虎”,可以在移动设备上离线运行,展现出不错的交互式应用能力。到了年底,小模型时代的大幕才缓缓拉起。

去年12月17日,法国创企Mistral AI率先发布Mixtral 8x7B 模型,结合多个为特定任务训练的较小模型来提高运行效率,基准测试结果媲美GPT-3.5。时隔一天,微软乘势发布27亿参数的Phi-2。小尺寸的 Phi-2 可以在笔记本电脑、手机等移动设备上运行,其逻辑推理和安全性均有改进。

与此同时,微软组建新团队开发小模型的消息也活跃于舆论场。今年2月,Google携带Gemma模型向Meta的Llama-2大模型发起挑战。Gemma不仅性能出色,还被整合进了开源生态系统,其2B版本甚至可以直接在笔记本电脑上运行,这一举措无疑为小模型的普及和应用开辟了新的道路。

从大模型落地终端开始,行业就已察觉到小模型的风口,但彼时科技巨头的重心仍是遵照Scaling Law扩充基础模型能力,其举措尚未明确释放本地部署小模型的想象力。

如今,Phi-3秀出在手机端的流畅运行力、苹果将Open ELM塞进iOS系产品等动作共同导向一个方向:模型本地化和垂直化。

随着AIGC技术进入应用阶段,C端小体量应用场景呼唤小模型。手机计算能力有限,而去中心化小模型无需昂贵的云计算设施和大量显存消耗,微软Phi-3只需占据1.8G的内存。

塞进手机的小模型也因此更能适应个性化、精准化的使用需求,用户可以随时随地调用陪伴式的服务,满足用户低频、日常化的细分需求。同时,小模型的本地化也能更大程度上保障用户的数据控制权和隐私权,推动AI技术的健康发展。

国内大模型创企挤进生成式人工智能赛道也多遵循上述逻辑,中小企业放弃仰视通用大模型,脚踏实地专攻量身定制的小模型,寻找商业化解决方案。

不久前,长期押注AIGC的商汤科技推出“日日新·端侧大模型”,并在发布会现场呈现该模型在手机端的应用场景,查看会议日程,设置群发消息等功能一气呵成。

对于为何自研端侧小模型,商汤科技董事长兼CEO徐立给出了接地气的答案,“如果几十亿端侧的设备都在不停地调用大模型,没有任何一个服务器能够‘服务得起’。”

大小互构,共存共荣

专而精、深而窄的小模型对移动端AI发展具有重要意义。相比之下,重金加注的大模型吸金能力存疑。印度IT巨头Infosys数据显示,仅有6%的欧洲公司通过生成式AI创造了商业价值。

资本市场对大模型的商业潜力评估也出现分化,融资热降温明显,资本不再像初期一样,愿意为没有明确商业化目标的企业狂热买单。

回顾2023年的“百模大战”,会发现错位竞争才是主旋律,模型在应用场景落地的章法各异,无论是开源、闭源生态之争,还是大小模型之辩均没有定论。玩家们既需要将基础大模型与数以百万的API链接起来,又不能忽视普通用户低成本使用的呼声。

正如李彦宏在Create 2024百度AI开发者大会所言,未来AI原生应用要借助大小模型的混用,不依赖一个模型来解决所有问题。运用知识蒸馏的技术,可以高效地将大型模型里的知识,转移到更简单的小模型中。

中国科学院自动化研究所研究员郑晓龙认为,当前AI大模型的演进,垂直化和领域化的大模型和小模型或者轻量化混合应用将具有较大的发展空间。

大模型进入小模型时代的说法不完全准确。未来一段时间内,大模型仍将提供通用的技术底座和基础模块,难以完全被小模型替代。小模型则要开垦边缘价值,在不同垂直领域找到立足点。

徐孝天告诉21世纪经济报道记者,大的基础模型加小模型的结构仍将持续存在一段时间。从AI Agent的角度来看,一般我们需要大模型来解决Agent级别的人机交互(命令行、APIs、文字等)、任务分割、计划等能力,然后通过小模型来完成具体的小任务。

生成式AI规模化落地比想象中艰难。IDC调查数据显示,超过半数的企业决策者认为各个领域的应用落地周期超过一年。想要跟上技术迭代的进度条,“越小越好”的精简路线或许能助力中小型创企、边缘设备制造商挤上牌桌,加速生成式AI落地,为“模型混合叙事”增添新注脚。

观察大模型落地趋势,会发现个性化大模型应用正在成为现实。开源模型库Hugging Face已经共享了超过10万个预训练模型,帮助开发者和初创公司管理和部署模型。

讨论人工智能的“iPhone时刻”何时来临为时尚早,但小模型集中面世并走向开源,或许将在更广泛的日常场景中赋能大众。 徐孝天向21世纪经济报道记者表示,在未来,用户将能够像在应用商店中选择软件一样,轻松挑选并使用适合自己的AI模型。

本文标签: 算法  AI  大模型  人工智能