🤖

GPT-4o

Name: GPT-4o
Price: Free / $20/mo Plus USD
Author: OpenAI

OpenAI · 2024-05

OpenAI 的旗舰多模态模型，将文本、视觉和音频统一在一个界面中。

访问官网

快速概览

参数量

Estimated ~1.76 trillion

上下文窗口

128K tokens

模态

text, image, audio

开源

否

价格

免费 / $20/月 Plus

发布日期

2024-05

开发者

OpenAI

关于

GPT-4o（omni）是 OpenAI 的旗舰多模态模型，在统一架构中原生集成文本、视觉和音频处理。估计参数量约 1.76 万亿，128K token 上下文窗口，驱动着 ChatGPT、ChatGPT API 和 Microsoft Copilot。GPT-4o 的革命性在于其原生多模态能力：它同时接受图像、音频和文本输入，并以极低延迟生成文本和图像输出。名称中的 "o" 代表 "omni"，反映其无需专门模型即可处理任何模态的能力。在实际使用中，GPT-4o 擅长细腻对话、创意写作、全栈开发和数据分析。128K 上下文窗口可处理完整代码库或长篇文档。与 Claude 3.5 Sonnet 相比，GPT-4o 更快且多模态能力更强。API 每百万输入 token 2.50 美元，而每月 20 美元的 ChatGPT Plus 订阅为个人用户提供了极佳价值。

优势

+单一模型统一多模态（文本+图像+音频）
+响应速度极快，延迟低
+出色的创意写作和细腻对话能力
+强大的代码生成和数据分析能力

不足

−参数量大导致大规模推理成本较高
−偶尔出现事实错误和幻觉
−不具备原生视频生成能力

适用场景

日常对话和效率提升的 AI 助手

跨语言代码生成和调试

创意内容创作和头脑风暴

自然语言驱动的数据分析

价格

免费版

GPT-4o mini 访问
有限 GPT-5 消息
基础文件上传

Plus 版

$20/mo

无限 GPT-4o 使用
高级数据分析
DALL-E 3
自定义 GPTs

API

$2.50/1M input tokens

按量计费
128K 上下文
视觉和音频支持

基准测试

基准	GPT-4o	对比模型
MMLU	88.7%	GPT-4: 86.4%
HumanEval	90.2%	Claude 3.5 Sonnet: 92.0%

技术规格

参数量

Estimated ~1.76 trillion

上下文窗口

128K tokens

模态

text, image, audio

语言

EnglishChineseSpanishArabicFrench+4

开源

否

开发者

OpenAI

发布日期: 2024-05

API文档

分享这篇文章

GPT-4o

快速概览

关于

优势

不足

适用场景

价格

免费版

Plus 版

API

基准测试

技术规格

开发者

相关模型

GPT-5

Claude 3.5 Sonnet

Claude 4 Opus

DeepSeek-R1