为什么要在本地运行AI?
云端AI(ChatGPT、Claude)功能强大,但也有缺点:隐私问题、依赖网络、订阅成本和无法定制。在笔记本电脑上运行开源模型给你带来隐私、离线访问、零持续成本和可定制性。你只需要适合你硬件的正确模型。
开始之前:安装Ollama
Ollama是运行本地模型最简单的方式。它处理下载、模型管理,并提供简单的CLI。
# 安装Ollama(Mac/Linux)
curl -fsSL https://ollama.com/install.sh | sh
# Windows:从 https://ollama.com/download/windows 下载
# 验证
ollama --version
模型1:Llama 3.2 3B(最适合大多数笔记本电脑)
3B参数 | 4 GB内存 | CPU上快速运行
Meta的Llama 3.2 3B处理问答、摘要、头脑风暴和基本写作。不如GPT-4强大,但在日常任务中表现出乎意料地好。
ollama run llama3.2:3b
模型2:Llama 3.1 8B(能力更强)
8B参数 | 8 GB内存 | CPU上运行良好,GPU上快速
在许多基准测试中达到或超过GPT-3.5。处理复杂推理、编程和写作。在16GB的无GPU笔记本电脑上,预计速度为5-10 token/秒。
ollama run llama3.1:8b
模型3:Qwen2.5 7B(最适合编程)
7B参数 | 6 GB内存
阿里的Qwen2.5在编程和数学方面略优于Llama。同时也很好地支持多语言任务。
ollama run qwen2.5:7b
模型4:Phi-3.5 3.8B(最高效)
3.8B参数 | 3 GB内存 | 即使在旧笔记本电脑上也非常快
Microsoft的Phi-3.5使用高质量的精选训练数据。尽管体积小,但在推理方面可以与体积大两倍的模型竞争。适合8GB内存的笔记本电脑。
ollama run phi3.5:3.8b
性能总结
| 模型 | 最低内存 | 质量 | CPU速度 | 最适合 |
|---|---|---|---|---|
| Phi-3.5 3.8B | 3 GB | 好 | 15-20 tok/s | 旧笔记本电脑 |
| Llama 3.2 3B | 4 GB | 好 | 15-25 tok/s | 通用用途 |
| Qwen2.5 7B | 6 GB | 很好 | 5-10 tok/s | 编程、多语言 |
| Llama 3.1 8B | 8 GB | 很好 | 5-10 tok/s | 推理 |
常见问题
问:如何将这些用于实际任务?
使用Open WebUI(Ollama的浏览器界面)或LM Studio获得类似ChatGPT的体验。Ollama也暴露REST API用于自定义集成。
问:它们离线工作吗?
可以。下载后,所有模型完全离线运行。不会向任何服务器发送数据。
问:本地模型能替代ChatGPT吗?
对于70%的日常任务,可以。对于复杂推理或创意写作,前沿云模型仍然明显更好。把本地模型看作日常使用中免费、私密、离线的选择。
相关文章
GPT-5:真正的新功能以及对普通用户意味着什么(非开发者)
每篇关于GPT-5的文章都是写给开发者看的。这一篇不是。以下是真正为普通人改变的事情:更好的写作、更少的错误,以及一个你每天都会使用的功能。
通俗解释欧盟AI法案:对你日常使用的工具意味着什么
欧盟刚刚通过了影响你使用的每个AI工具的法规。没有法律术语——这是被禁止的内容、需要标注的内容,以及它如何改变ChatGPT、Midjourney等。
3年前不存在的AI工作(及其薪资水平)
“提示工程师”不是唯一的新工作。还有AI安全官、AI内容编辑、AI工作流顾问。以下是这些工作实际做什么、薪资水平以及如何入门。