AI Study Online
👁️

GPT-4V

OpenAI · 2023-09

OpenAI 的首个视觉模型,将图像理解融入对话式 AI。

访问官网

快速概览

参数量

Estimated ~1.76 trillion (GPT-4 base)

上下文窗口

128K tokens

模态

text, image

开源

价格

API $10.00/百万输入 token(视觉)

发布日期

2023-09

开发者

OpenAI

关于

GPT-4V(视觉)是 OpenAI 开创性的多模态模型,为 GPT-4 增加了图像理解能力。它可以分析照片、截图、文档和图表,对视觉内容进行详细的推理回答。GPT-4V 引入了阅读手写文字、识别物体和场景、分析图表以及提供图像上下文描述等能力。作为后续多模态模型的基础,GPT-4V 为 GPT-4o 和 GPT-5 的集成视觉能力铺平了道路。

优势

  • +开创性的视觉语言理解能力
  • +准确的图像描述和分析
  • +处理多样化的视觉输入(照片、图表、文字)
  • +对视觉内容的深度推理

不足

  • 已被 GPT-4o 的集成能力取代
  • 与主 GPT-4 分离,非统一模型
  • 成本高于更新的多模态模型
  • 不支持音频或视频理解

适用场景

图像分析和描述任务

文档和图表理解

视觉问答和推理

OCR 和手写识别

价格

API

$10.00/1M input tokens

  • 视觉理解
  • 128K 上下文
  • 文本和图像输入

技术规格

参数量

Estimated ~1.76 trillion (GPT-4 base)

上下文窗口

128K tokens

模态

text, image

语言

EnglishChineseSpanishArabic50+ languages

开源

开发者

OpenAI

发布日期: 2023-09

分享这篇文章

相关模型