我总听到“LLM”——它们到底是什么？（通俗版）

学习路径： AI基础 · 第1部分（共5部分）

前置要求： 无——本文面向零基础读者，无需任何技术背景。

大语言模型到底是什么？

你一定看过这些头条新闻："大语言模型正在改变一切。"CEO们在财报电话会议上谈论它们。你的亲戚在饭桌上提起过它们。这个词被到处使用，好像每个人都应该知道它是什么意思。

用最简单的方式来理解：

大语言模型（LLM）就是手机输入法自动补全功能的超级进阶版。

当你在手机上输入"生日快乐"时，它会建议下一个词。那是一个小型语言模型在做预测。现在想象一下，这个系统是在互联网上大部分公开内容——书籍、维基百科、Reddit、科学论文、GitHub代码、新闻文章——上训练的，并且规模扩大了数千倍。这就是LLM。

LLM实际上是如何工作的（无需数学）

每个LLM只做一件事：预测下一个词（更准确地说，是下一个"token"）。一个token大约相当于0.75个单词。当你输入一个问题时，模型会查看到目前为止的所有token，计算最可能的下一个token，然后重复这个过程，直到回答完成。

没有数据库查询。没有"知识"被检索。模型内部没有Wikipedia。它只有一个统计映射，记录了哪些token倾向于跟在哪些token序列之后——这是从训练数据中构建出来的。

用数字说话

规模确实令人震惊：

GPT-4 在大约 13万亿个token 上训练——大约10万亿个单词，相当于约4000万本书。
GPT-4 估计有 1.76万亿个参数。下面会解释这意味着什么。
训练过程消耗了数千个GPU运行数月。估计成本：1亿美元以上。
Meta的 Llama 3 405B 在 15.6万亿个token 上训练，使用 3080万GPU小时。

这些数字解释了为什么全世界只有少数几家公司能构建前沿模型：OpenAI、Google、Anthropic、Meta等。仅算力成本就高不可攀。

"数十亿参数"——这意味着什么？

参数是模型在训练过程中学到的一个数字。可以把它想象成一个影响预测的小权重。当数十亿个这样的权重通过模型的神经网络相乘时，你就得到了一个预测。

一个有用的类比：想象一个拥有1.76万亿个旋钮的菜谱。在训练过程中，模型调整每个旋钮，这样当你输入"法国的首都是___"时，"巴黎"成为最可能的答案。"数十亿参数"只是意味着有那么多旋钮需要调节。

作为对比：

GPT-1（2018年）：1.17亿个参数
GPT-3（2020年）：1750亿个参数
GPT-4（2023年）：约1.76万亿个参数（估计）
Llama 3（2024年）：8B、70B和405B参数版本
Claude 3.5 Sonnet（2024年）：估计低于100B参数，但性能超过许多更大的模型

注意最后一项：更大并不总是更好。架构和训练数据质量至少和原始参数数量同等重要。

LLM与传统软件有何不同

这是需要理解的最重要的区别：

传统软件： 开发人员编写明确的规则。如果你点击"保存"，程序调用 saveFile()。每个行为都是确定性的，由人类编程实现。如果它做错了什么，那是人类写错了代码。

LLM： 没有人编写规则告诉它该说什么。模型从数据中学习模式。当你问一个问题时，它会生成一个统计上最可能的回答——基于它的训练，而不是保证正确的回答。这就是为什么LLM能写诗（没有"写诗函数"），也是为什么它们会自信地陈述错误信息（没有"事实核查函数"）。

真实示例：逐Token看发生了什么

假设你问ChatGPT："日本的首都是什么？"

在底层大致发生的过程如下：

输入 tokens: ["日本", "的", "首都", "是", "什么"]
处理开始：
  第1步：模型预测下一个token → "东京" (概率: 0.85)
  第2步：→ "。" (概率: 0.78)
  第3步：→ "它是" (概率: 0.72) —— 开始后续补充说明
  ……继续直到模型预测"停止"

模型并不知道日本有首都。它不知道东京是一个城市。它在训练数据中无数次看到过"某国的首都是某城市"这个模式，以至于"东京"成为"日本的首都是"之后压倒性的最可能token。

这也是为什么模型可能还会告诉你东京的人口、江户的历史，甚至推荐餐厅——它看到过这些模式跟在同一个触发短语后面。

最重要的一点

LLM做的是预测，不是"知道"。

当一个律师向ChatGPT咨询判例法，而它编造了六个不存在的法院案例（这事在2023年真实发生过），它并不是在撒谎。它只是在预测最可能的token序列——看起来像法律引用的内容。模型从未见过"真理数据库"。它见过包含引用的文本模式，所以它生成更多看起来像引用的文本。

这个区别——预测 vs 知识——解释了几乎所有LLM的怪异行为：幻觉、自信的错误答案、创造力、用任何风格写作的能力，以及无法可靠地做简单算术的问题。

了解更多浏览器自动化和AI工作流，请查看

CLI + Skill浏览器自动化、OpenClaw必备的6个技能、Hooks：AI工作流守门人和确保代理技能命中率。
常见问题

问：LLM理解自己在说什么吗？

不。目前没有任何证据表明任何LLM具备理解、意识或知觉。它们基于统计模式操纵token。它们可以表现得像在理解，因为人类语言是有模式的，令人信服地模仿模式会制造出理解的错觉。但底层机制是预测，不是理解。

问：所有LLM在本质上都一样吗？

架构上，是的——大多数现代LLM使用Transformer架构的变体（Google于2017年提出）。但它们在训练数据、训练方法、规模和微调方面差异巨大。GPT-4、Claude、Gemini、Llama和DeepSeek都使用Transformer，但由于训练选择不同，输出差异很大。

问：我能在自己的电脑上运行LLM吗？

可以，但有条件。像Llama 3.2 3B或Microsoft Phi-3这样的小模型可以在现代笔记本电脑（8GB+内存）上使用Ollama或LM Studio等工具运行。像GPT-4这样的前沿模型需要数据中心级的硬件，无法在本地运行。能够离线运行且尊重隐私的小模型生态系统正在不断壮大——代价是在能力上不如云端模型。

下一篇： 第2部分：AI幻觉解释：为什么ChatGPT会编造内容（附真实例子） →

我总听到“LLM”——它们到底是什么？（通俗版）

大语言模型到底是什么？

LLM实际上是如何工作的（无需数学）

用数字说话

"数十亿参数"——这意味着什么？

LLM与传统软件有何不同

真实示例：逐Token看发生了什么

最重要的一点

CLI + Skill浏览器自动化、OpenClaw必备的6个技能、Hooks：AI工作流守门人和确保代理技能命中率。
常见问题

问：LLM理解自己在说什么吗？

问：所有LLM在本质上都一样吗？

问：我能在自己的电脑上运行LLM吗？

ChatGPT

Claude

相关文章

AI幻觉解释：为什么ChatGPT会编造内容（附真实例子）

你应该使用哪个AI工具？初学者的决策框架

免费vs付费AI工具：何时值得付费（何时不值得）

我总听到“LLM”——它们到底是什么？（通俗版）

大语言模型到底是什么？

LLM实际上是如何工作的（无需数学）

用数字说话

"数十亿参数"——这意味着什么？

LLM与传统软件有何不同

真实示例：逐Token看发生了什么

最重要的一点

CLI + Skill浏览器自动化、OpenClaw必备的6个技能、Hooks：AI工作流守门人和确保代理技能命中率。 常见问题

问：LLM理解自己在说什么吗？

问：所有LLM在本质上都一样吗？

问：我能在自己的电脑上运行LLM吗？

相关文章

AI幻觉解释：为什么ChatGPT会编造内容（附真实例子）

你应该使用哪个AI工具？初学者的决策框架

免费vs付费AI工具：何时值得付费（何时不值得）

CLI + Skill浏览器自动化、OpenClaw必备的6个技能、Hooks：AI工作流守门人和确保代理技能命中率。
常见问题