AI Study Online
🤖

GPT-4o

OpenAI · 2024-05

OpenAI 的旗舰多模态模型,将文本、视觉和音频统一在一个界面中。

访问官网

快速概览

参数量

Estimated ~1.76 trillion

上下文窗口

128K tokens

模态

text, image, audio

开源

价格

免费 / $20/月 Plus

发布日期

2024-05

开发者

OpenAI

关于

GPT-4o(omni)是 OpenAI 的旗舰多模态模型,原生集成文本、图像和音频处理。它接受混合输入并生成文本和图像输出,延迟显著低于前代模型。估计参数量约 1.76 万亿,驱动着 ChatGPT、ChatGPT API 和 Microsoft Copilot。GPT-4o 在细腻对话、创意写作、代码生成、数据分析和视觉理解方面表现卓越,是目前最多功能的 AI 模型之一。其具备实时情感表达的语音模式为对话 AI 树立了新标准。

优势

  • +单一模型统一多模态(文本+图像+音频)
  • +响应速度极快,延迟低
  • +出色的创意写作和细腻对话能力
  • +强大的代码生成和数据分析能力

不足

  • 参数量大导致大规模推理成本较高
  • 偶尔出现事实错误和幻觉
  • 不具备原生视频生成能力

适用场景

日常对话和效率提升的 AI 助手

跨语言代码生成和调试

创意内容创作和头脑风暴

自然语言驱动的数据分析

价格

免费版

$0

  • GPT-4o mini 访问
  • 有限 GPT-5 消息
  • 基础文件上传

Plus 版

$20/mo

  • 无限 GPT-4o 使用
  • 高级数据分析
  • DALL-E 3
  • 自定义 GPTs

API

$2.50/1M input tokens

  • 按量计费
  • 128K 上下文
  • 视觉和音频支持

基准测试

基准GPT-4o对比模型
MMLU88.7%GPT-4: 86.4%
HumanEval90.2%Claude 3.5 Sonnet: 92.0%

技术规格

参数量

Estimated ~1.76 trillion

上下文窗口

128K tokens

模态

text, image, audio

语言

EnglishChineseSpanishArabicFrench+4

开源

开发者

OpenAI

发布日期: 2024-05

分享这篇文章

相关模型