👁️
访问官网GPT-4V
OpenAI · 2023-09
OpenAI 的首个视觉模型,将图像理解融入对话式 AI。
快速概览
参数量
Estimated ~1.76 trillion (GPT-4 base)
上下文窗口
128K tokens
模态
text, image
开源
否
价格
API $10.00/百万输入 token(视觉)
发布日期
2023-09
开发者
OpenAI
关于
GPT-4V(视觉)是 OpenAI 开创性的多模态模型,为 GPT-4 增加了图像理解能力。它可以分析照片、截图、文档和图表,对视觉内容进行详细的推理回答。GPT-4V 引入了阅读手写文字、识别物体和场景、分析图表以及提供图像上下文描述等能力。作为后续多模态模型的基础,GPT-4V 为 GPT-4o 和 GPT-5 的集成视觉能力铺平了道路。
优势
- +开创性的视觉语言理解能力
- +准确的图像描述和分析
- +处理多样化的视觉输入(照片、图表、文字)
- +对视觉内容的深度推理
不足
- −已被 GPT-4o 的集成能力取代
- −与主 GPT-4 分离,非统一模型
- −成本高于更新的多模态模型
- −不支持音频或视频理解
适用场景
图像分析和描述任务
文档和图表理解
视觉问答和推理
OCR 和手写识别
价格
API
$10.00/1M input tokens
- 视觉理解
- 128K 上下文
- 文本和图像输入
技术规格
参数量
Estimated ~1.76 trillion (GPT-4 base)
上下文窗口
128K tokens
模态
text, image
语言
EnglishChineseSpanishArabic50+ languages
开源
否
开发者
OpenAI
发布日期: 2023-09
分享这篇文章