研究人员称,小型语言模型正风靡一时 - AI News
研究人员称,小型语言模型正风靡一时

研究人员称,小型语言模型正风靡一时

2025-04-13

新闻要点

研究人员称小语言模型正流行。大语言模型虽强大但训练成本高、能耗大,为此IBM、谷歌等推出小语言模型。小模型参数仅数十亿,可用于特定任务,且能在普通设备运行。研究人员还通过知识蒸馏、修剪等方法优化训练。小模型为研究提供新思路,应用前景广阔。

- 小语言模型流行 参数仅数十亿

- 小模型可在笔记本或手机上运行

- 知识蒸馏、修剪优化小模型训练

- 小模型为研究提供低成本新思路

主要内容

本文最初发表于《量子杂志》。大型语言模型效果良好是因为它们规模庞大。OpenAI、Meta 和 DeepSeek 的最新模型使用数千亿个“参数”——这些可调整的旋钮决定数据之间的连接,并在训练过程中进行微调。参数越多,模型越能更好地识别模式和连接,从而使其更强大、更准确。但这种能力是有代价的。训练一个拥有数千亿个参数的模型需要巨大的计算资源。例如,谷歌为训练其 Gemini 1.0 Ultra 模型花费了 1.91 亿美元。大型语言模型每次回答请求时也需要相当大的计算能力,这使它们成为著名的能源消耗大户。据电力研究所称,对 ChatGPT 的一次查询消耗的能量约为一次谷歌搜索的 10 倍。
响应这一情况,一些研究人员现在开始考虑小型模型。IBM、谷歌、微软和 OpenAI 最近都发布了使用数十亿个参数的小型语言模型——仅为其大型语言模型对应物的一小部分。小型模型不像它们的大型同类产品那样用作通用工具。但它们在特定的、定义更狭窄的任务上表现出色,如总结对话、作为医疗保健聊天机器人回答患者问题以及在智能设备中收集数据。卡内基梅隆大学的计算机科学家 Zico Kolter 表示:“对于很多任务,一个 80 亿参数的模型实际上非常好。”它们还可以在笔记本电脑或手机上运行,而不是在巨大的数据中心中。(对于“小型”的确切定义尚无共识,但这些新模型的参数最多约为 100 亿。)
为了优化这些小型模型的训练过程,研究人员使用了一些技巧。大型模型经常从互联网上抓取原始训练数据,这些数据可能是无序、混乱且难以处理的。但这些大型模型可以生成高质量的数据集,用于训练小型模型。这种称为知识蒸馏的方法让大型模型有效地传递其训练,就像老师给学生上课一样。Kolter 说:“[小型模型]在如此小的模型和如此少的数据下能如此出色,是因为它们使用高质量数据而不是混乱的东西。”
研究人员还探索了通过从大型模型开始并进行精简来创建小型模型的方法。一种称为修剪的方法,涉及删除神经网络中不必要或低效的部分——支撑大型模型的相互连接的数据点的庞大网络。修剪的灵感来自现实生活中的神经网络——人类大脑,随着年龄的增长,通过切断突触之间的连接来提高效率。今天的修剪方法可以追溯到 1989 年的一篇论文,当时现在在 Meta 的计算机科学家 Yann LeCun 认为,在不牺牲效率的情况下,训练后的神经网络中多达 90%的参数可以被删除。他将这种方法称为“最佳脑损伤”。修剪可以帮助研究人员针对特定任务或环境微调小型语言模型。对于对语言模型如何工作感兴趣的研究人员来说,小型模型提供了一种廉价的方式来测试新想法。并且由于它们的参数比大型模型少,它们的推理可能更透明。麻省理工学院 - IBM Watson AI 实验室的研究科学家 Leshem Choshen 说:“如果你想创建一个新模型,你需要尝试一些事情。小型模型允许研究人员以较低的风险进行实验。”大型、昂贵的模型,其参数不断增加,对于通用聊天机器人、图像生成器和药物发现等应用仍将有用。但对于许多用户来说,一个小型、有针对性的模型同样有效,同时更易于研究人员训练和构建。“这些高效模型可以节省金钱、时间和计算资源。”