大语言模型到底是什么?
你一定看过这些头条新闻:"大语言模型正在改变一切。"CEO们在财报电话会议上谈论它们。你的亲戚在饭桌上提起过它们。这个词被到处使用,好像每个人都应该知道它是什么意思。
用最简单的方式来理解:
大语言模型(LLM)就是手机输入法自动补全功能的超级进阶版。
当你在手机上输入"生日快乐"时,它会建议下一个词。那是一个小型语言模型在做预测。现在想象一下,这个系统是在互联网上大部分公开内容——书籍、维基百科、Reddit、科学论文、GitHub代码、新闻文章——上训练的,并且规模扩大了数千倍。这就是LLM。
LLM实际上是如何工作的(无需数学)
每个LLM只做一件事:预测下一个词(更准确地说,是下一个"token")。一个token大约相当于0.75个单词。当你输入一个问题时,模型会查看到目前为止的所有token,计算最可能的下一个token,然后重复这个过程,直到回答完成。
没有数据库查询。没有"知识"被检索。模型内部没有Wikipedia。它只有一个统计映射,记录了哪些token倾向于跟在哪些token序列之后——这是从训练数据中构建出来的。
用数字说话
规模确实令人震惊:
- GPT-4 在大约 13万亿个token 上训练——大约10万亿个单词,相当于约4000万本书。
- GPT-4 估计有 1.76万亿个参数。下面会解释这意味着什么。
- 训练过程消耗了数千个GPU运行数月。估计成本:1亿美元以上。
- Meta的 Llama 3 405B 在 15.6万亿个token 上训练,使用 3080万GPU小时。
这些数字解释了为什么全世界只有少数几家公司能构建前沿模型:OpenAI、Google、Anthropic、Meta等。仅算力成本就高不可攀。
"数十亿参数"——这意味着什么?
参数是模型在训练过程中学到的一个数字。可以把它想象成一个影响预测的小权重。当数十亿个这样的权重通过模型的神经网络相乘时,你就得到了一个预测。
一个有用的类比:想象一个拥有1.76万亿个旋钮的菜谱。在训练过程中,模型调整每个旋钮,这样当你输入"法国的首都是___"时,"巴黎"成为最可能的答案。"数十亿参数"只是意味着有那么多旋钮需要调节。
作为对比:
- GPT-1(2018年):1.17亿个参数
- GPT-3(2020年):1750亿个参数
- GPT-4(2023年):约1.76万亿个参数(估计)
- Llama 3(2024年):8B、70B和405B参数版本
- Claude 3.5 Sonnet(2024年):估计低于100B参数,但性能超过许多更大的模型
注意最后一项:更大并不总是更好。架构和训练数据质量至少和原始参数数量同等重要。
LLM与传统软件有何不同
这是需要理解的最重要的区别:
传统软件: 开发人员编写明确的规则。如果你点击"保存",程序调用 saveFile()。每个行为都是确定性的,由人类编程实现。如果它做错了什么,那是人类写错了代码。
LLM: 没有人编写规则告诉它该说什么。模型从数据中学习模式。当你问一个问题时,它会生成一个统计上最可能的回答——基于它的训练,而不是保证正确的回答。这就是为什么LLM能写诗(没有"写诗函数"),也是为什么它们会自信地陈述错误信息(没有"事实核查函数")。
真实示例:逐Token看发生了什么
假设你问ChatGPT:"日本的首都是什么?"
在底层大致发生的过程如下:
输入 tokens: ["日本", "的", "首都", "是", "什么"]
处理开始:
第1步:模型预测下一个token → "东京" (概率: 0.85)
第2步:→ "。" (概率: 0.78)
第3步:→ "它是" (概率: 0.72) —— 开始后续补充说明
……继续直到模型预测"停止"
模型并不知道日本有首都。它不知道东京是一个城市。它在训练数据中无数次看到过"某国的首都是某城市"这个模式,以至于"东京"成为"日本的首都是"之后压倒性的最可能token。
这也是为什么模型可能还会告诉你东京的人口、江户的历史,甚至推荐餐厅——它看到过这些模式跟在同一个触发短语后面。
最重要的一点
LLM做的是预测,不是"知道"。
当一个律师向ChatGPT咨询判例法,而它编造了六个不存在的法院案例(这事在2023年真实发生过),它并不是在撒谎。它只是在预测最可能的token序列——看起来像法律引用的内容。模型从未见过"真理数据库"。它见过包含引用的文本模式,所以它生成更多看起来像引用的文本。
这个区别——预测 vs 知识——解释了几乎所有LLM的怪异行为:幻觉、自信的错误答案、创造力、用任何风格写作的能力,以及无法可靠地做简单算术的问题。
常见问题
问:LLM理解自己在说什么吗?
不。目前没有任何证据表明任何LLM具备理解、意识或知觉。它们基于统计模式操纵token。它们可以表现得像在理解,因为人类语言是有模式的,令人信服地模仿模式会制造出理解的错觉。但底层机制是预测,不是理解。
问:所有LLM在本质上都一样吗?
架构上,是的——大多数现代LLM使用Transformer架构的变体(Google于2017年提出)。但它们在训练数据、训练方法、规模和微调方面差异巨大。GPT-4、Claude、Gemini、Llama和DeepSeek都使用Transformer,但由于训练选择不同,输出差异很大。
问:我能在自己的电脑上运行LLM吗?
可以,但有条件。像Llama 3.2 3B或Microsoft Phi-3这样的小模型可以在现代笔记本电脑(8GB+内存)上使用Ollama或LM Studio等工具运行。像GPT-4这样的前沿模型需要数据中心级的硬件,无法在本地运行。能够离线运行且尊重隐私的小模型生态系统正在不断壮大——代价是在能力上不如云端模型。