🎙

Whisper Large v3

Name: Whisper Large v3
Price: Free (open-source) / API from $0.006/minute USD
Author: OpenAI

开源

OpenAI · 2024-09

OpenAI 最先进的语音识别模型，高精度多语言转录。

访问官网

快速概览

参数量

~1.55B

上下文窗口

N/A

模态

audio, text

开源

是

许可证

MIT

价格

免费（开源）/ API 从 $0.006/分钟

发布日期

2024-09

开发者

OpenAI

关于

Whisper Large v3 是 OpenAI 最先进的自动语音识别模型，能在 99+ 种语言上以接近人类的准确度进行转录和翻译。约 15.5 亿参数，基于 Transformer 的编码器-解码器架构，在 68 万小时多语言音频数据上训练。支持多语言转录、直接翻译成英语、自动语言识别和时间戳生成。MIT 开源许可意味着可以本地运行、无限转录且完全隐私。对于构建语音应用的开发者来说，Whisper Large v3 在开源包中提供了研究级准确度。

优势

+99+ 语言接近人类的准确度
+开源且 MIT 许可
+本地运行，适合隐私敏感场景
+处理噪音、多人说话和口音

不足

−大型模型实时运行需要较多算力
−专业领域术语准确度较低
−无内置说话人识别

适用场景

大规模多语言音频转录

隐私敏感的语音处理

内容无障碍和字幕生成

语音控制应用和助手

价格

开源

完整模型权重
本地运行
无限使用
完全隐私

API

From $0.006/minute

可扩展部署
无需 GPU
99+ 语言
翻译

基准测试

基准	Whisper Large v3	对比模型
Common Voice	15.1% WER	Google Speech: 18.2% WER

技术规格

参数量

~1.55B

上下文窗口

N/A

模态

audio, text

语言

EnglishChineseSpanishArabicFrench+4

开源

是

许可证

MIT

开发者

OpenAI

发布日期: 2024-09

API文档 GitHub

分享这篇文章

Whisper Large v3

快速概览

关于

优势

不足

适用场景

价格

开源

API

基准测试

技术规格

开发者

相关模型

Gemini 2.5 Pro

Gemini 2.5 Flash

GPT-4V

通义千问VL-Max