👁️

GPT-4V

Name: GPT-4V
Price: API $10.00/1M input tokens (vision) USD
Author: OpenAI

OpenAI · 2023-09

OpenAI 的首个视觉模型，将图像理解融入对话式 AI。

访问官网

快速概览

参数量

Estimated ~1.76 trillion (GPT-4 base)

上下文窗口

128K tokens

模态

text, image

开源

否

价格

API $10.00/百万输入 token（视觉）

发布日期

2023-09

开发者

OpenAI

关于

GPT-4V（视觉）是 OpenAI 开创性的多模态模型，为 GPT-4 增加了图像理解能力，为 GPT-4o 和 GPT-5 的集成多模态能力铺平了道路。发布于 2023 年 9 月，GPT-4V 是首个能够理解图像的主流语言模型。它可以分析照片、读取手写文字、解释图表、描述艺术作品以及回答视觉内容相关问题。虽然已被 GPT-4o 取代，但作为首个展示 LLM 真正理解视觉内容的模型，其历史意义重大。

优势

+开创性的视觉语言理解能力
+准确的图像描述和分析
+处理多样化的视觉输入（照片、图表、文字）
+对视觉内容的深度推理

不足

−已被 GPT-4o 的集成能力取代
−与主 GPT-4 分离，非统一模型
−成本高于更新的多模态模型
−不支持音频或视频理解

适用场景

图像分析和描述任务

文档和图表理解

视觉问答和推理

OCR 和手写识别

价格

API

$10.00/1M input tokens

视觉理解
128K 上下文
文本和图像输入

技术规格

参数量

Estimated ~1.76 trillion (GPT-4 base)

上下文窗口

128K tokens

模态

text, image

语言

EnglishChineseSpanishArabic50+ languages

开源

否

开发者

OpenAI

发布日期: 2023-09

API文档

分享这篇文章

GPT-4V

快速概览

关于

优势

不足

适用场景

价格

API

技术规格

开发者

相关模型

Gemini 2.5 Pro

Gemini 2.5 Flash

通义千问VL-Max

Whisper Large v3