🌐

通义千问VL-Max

阿里云 · 2025

阿里云的旗舰多模态模型，中英文视觉语言理解能力领先。

访问官网

快速概览

参数量

Undisclosed (estimated ~100B+)

上下文窗口

128K tokens

模态

text, image

开源

否

价格

API 从约 $0.50/百万 token

发布日期

2025

开发者

阿里云

关于

通义千问VL-Max 是阿里云的旗舰多模态大语言模型，在中文视觉理解方面具有突出优势。它擅长图像描述、视觉问答、文档理解和多图像推理。其突出能力是理解以西方为中心的模型可能误读的中文文化语境、文档和场景。Qwen-VL-Max 识别图像中的中文文本准确度更高，理解视觉内容中的中文文化参考，处理中文文档格式。对于涉及中文内容的文档数字化工作流，Qwen-VL-Max 显著优于将中文视为次要考虑因素的通用模型。

优势

+中文语境下领先的视觉语言理解
+强大的文档和图表分析能力
+中英双语熟练
+良好的多图像推理能力

不足

−亚洲以外地区可用性有限
−全球社区和生态系统较小
−非视觉推理任务能力较弱

适用场景

中文文档和图像理解

双语视觉问答应用

中国文化语境分析

文档数字化和理解

价格

免费（网页版）

有限通义千问对话
基础视觉任务
文件上传

API

From ~$0.50/1M tokens

按量计费
视觉语言能力
128K 上下文

技术规格

参数量

Undisclosed (estimated ~100B+)

上下文窗口

128K tokens

模态

text, image

语言

ChineseEnglish

开源

否

开发者

阿里云

发布日期: 2025

API文档

分享这篇文章

通义千问VL-Max

快速概览

关于

优势

不足

适用场景

价格

免费（网页版）

API

技术规格

开发者

相关模型

Gemini 2.5 Pro

Gemini 2.5 Flash

GPT-4V

Whisper Large v3