🎙
访问官网Whisper Large v3
开源OpenAI · 2024-09
OpenAI 最先进的语音识别模型,高精度多语言转录。
快速概览
参数量
~1.55B
上下文窗口
N/A
模态
audio, text
开源
是
许可证
MIT
价格
免费(开源)/ API 从 $0.006/分钟
发布日期
2024-09
开发者
OpenAI
关于
Whisper Large v3 是 OpenAI 最先进的自动语音识别模型,能在 99+ 种语言上以接近人类的准确度进行转录和翻译。约 15.5 亿参数,基于 Transformer 的编码器-解码器架构,在 68 万小时多语言音频数据上训练。支持多语言转录、直接翻译成英语、自动语言识别和时间戳生成。MIT 开源许可意味着可以本地运行、无限转录且完全隐私。对于构建语音应用的开发者来说,Whisper Large v3 在开源包中提供了研究级准确度。
优势
- +99+ 语言接近人类的准确度
- +开源且 MIT 许可
- +本地运行,适合隐私敏感场景
- +处理噪音、多人说话和口音
不足
- −大型模型实时运行需要较多算力
- −专业领域术语准确度较低
- −无内置说话人识别
适用场景
大规模多语言音频转录
隐私敏感的语音处理
内容无障碍和字幕生成
语音控制应用和助手
价格
开源
$0
- 完整模型权重
- 本地运行
- 无限使用
- 完全隐私
API
From $0.006/minute
- 可扩展部署
- 无需 GPU
- 99+ 语言
- 翻译
基准测试
| 基准 | Whisper Large v3 | 对比模型 |
|---|---|---|
| Common Voice | 15.1% WER | Google Speech: 18.2% WER |
技术规格
参数量
~1.55B
上下文窗口
N/A
模态
audio, text
语言
EnglishChineseSpanishArabicFrench+4
开源
是
许可证
MIT
分享这篇文章