过去两年,主流观点一直是开源AI模型比闭源产品落后12到18个月。2026年初发布的DeepSeek-R1可能刚刚打破了这一时间线。以下是它与Anthropic最强模型Claude 4 Opus的对比——以及现在的差距究竟是什么样子。
关键数据
在标准推理基准测试上——MATH-500、GPQA、AIME 2024——DeepSeek-R1和Claude 4 Opus之间的差距在2-3个百分点以内。特别是在AIME 2024上,DeepSeek-R1的得分(89.2%)略高于Claude 4 Opus(87.6%)。对于一个API运行成本仅为Claude 4 Opus约二十分之一的模型来说,这非常了不起。
但基准测试只能反映一部分情况。实际使用揭示了更明显的差异。
DeepSeek-R1的优势
成本。这是最大的优势。DeepSeek-R1的API价格约为每百万输出token $2.19,而Claude 4 Opus约为$45。对于一个每天运行数千次推理查询的初创公司来说,这个差异从"也许我们能负担得起"变成了"这几乎不花钱"。
数学推理。DeepSeek在训练中特别强调思维链推理,效果显著。对于复杂的数学问题、多步骤逻辑难题和需要仔细推理的编程挑战,DeepSeek-R1确实与Claude 4 Opus不相上下——有时甚至更好。
透明度。模型权重是开源的。你可以下载、检查、微调它们,并在自己的硬件上运行。没有黑箱,不依赖API,不用担心模型突然被更改或下架。
Claude 4 Opus的优势
写作和细腻度。这一点没有可比性。Claude 4 Opus生成的文字质量明显更好——更自然、结构更多变、更能处理语气和风格。DeepSeek-R1的写作能力还算可以,但明显不够精致。如果你在写博客文章、客户邮件或任何需要讲究风格的内容,Claude仍然是正确的选择。
指令遵循。Claude 4 Opus能更可靠地处理复杂的多部分指令。给它一个包含五个约束条件、三个部分和特定格式要求的提示,它能全部遵循。DeepSeek-R1倾向于忘记后面的约束条件或回归到默认模式。
安全性和拒绝能力。Claude的Constitutional AI训练使其能更优雅地拒绝有害请求。DeepSeek-R1有更基础的安全过滤,可能会让人觉得要么过于严格(拒绝无害请求),要么过于宽松(同意可能有危害的请求),具体取决于话题。
实际推荐
如果你是构建推理密集型应用的开发者——比如数学辅导工具、代码分析工具、逻辑引擎——DeepSeek-R1可能是更好的选择。仅成本节约就很有说服力,而且推理质量与闭源领导者相当。
如果你是作家、内容创作者或需要细腻可靠文字的专业人士——Claude 4 Opus仍然值得溢价。写作质量的差距是真实且明显的。
这里最有趣的发展不是"哪个更好"。而是第一次,对于"我应该用开源还是闭源?"这个问题,答案不再是理所当然的"闭源"。开源在关键能力(推理)上真正追了上来。这比任何单一的基准测试分数都更能说明问题。