盲测实验
我们用Claude(Claude 4)和ChatGPT(GPT-5)生成了5个内容:一封商务邮件、一篇博客开头、一个产品描述、一条社交媒体帖子和一个创意故事。我们移除了所有标识性标签,让10位普通人(25-60岁,非技术背景)选择他们更喜欢的版本。
结果非常明显。
测试1:商务邮件
提示词:给客户写一封邮件,解释由于供应商问题导致项目延迟一周。保持信任。
胜者:Claude 8/10。受访者形容Claude的版本"更人性化","像是真人写的"。ChatGPT的版本"更正式","听起来像模板"。
测试2:博客引言
提示词:"为什么你的晨间习惯正在破坏你的生产力"的前3段。
胜者:Claude 7/10。Claude以一个具体场景开头("你按了三次贪睡按钮……")。ChatGPT以一个概括性陈述开头。读者更喜欢具体的开头。
测试3:产品描述
提示词:带果汁槽的竹制砧板的100字描述。
胜者:平局(5/5)。两者都写出了合格描述。Claude更描述性,ChatGPT更注重功能。风格不同,质量相当。
测试4:社交媒体帖子
提示词:宣布新移动应用功能的4条推特帖子。
胜者:Claude 6/10。Claude的帖子有更清晰的叙事线。ChatGPT的像是单独的公告。
测试5:创意故事
提示词:关于图书管理员发现隐藏房间的150字故事,带意外转折。
胜者:Claude 9/10。差距最大的一项。Claude的故事有氛围、具体细节和真正令人意外的结局。ChatGPT的则很通用。
总体结果
Claude获胜:50票中的35票(70%)。ChatGPT获胜:50票中的15票(30%)。
Claude赢得了5项测试中的4项,并在第五项中打平。差距最大的是创意写作,最小的是事实描述。受访者一致对Claude使用了"人性化"、"自然"和"不那么机械化"等词汇。
常见问题
问:这是公平的比较吗?
我们使用了Claude 4和GPT-5(各自的旗舰模型)。两者收到了相同的提示词,没有特殊指令或引导。测试反映了真实世界中非专业用户的使用情况,而不是提示词工程技巧。
问:更好的提示词会改变结果吗?
有可能。ChatGPT的输出可以通过高级技巧(角色设定、风格示例)得到改善。测试设计为反映典型用户的行为。
问:我应该用哪个来写作?
对于注重语气的写作(邮件、方案、创意),从Claude开始。对于技术性或结构化写作,ChatGPT很强。用你的实际工作试试两者。
相关文章
Midjourney基础:AI图像创作入门
Midjourney能生成最高质量的AI图像,但需要Discord。以下是如何设置、编写你的第一个/imagine提示词以及掌握关键参数。
2026年ChatGPT免费版vs Plus版:你不付费实际能获得什么
OpenAI不断改变免费和付费的边界。这里是2026年最新解析:图像生成限制、消息上限、GPT-5访问权限,以及哪些付费功能现在免费了。
NotebookLM vs Perplexity:从零研究一个主题哪个更好?
两者都声称能帮助你研究,但它们的工作方式完全不同。我用两者研究了同一个主题并对比了结果——这是哪个真正节省了我的时间。