AI Study Online
🎙

Whisper Large v3

开源

OpenAI · 2024-09

OpenAI 最先进的语音识别模型,高精度多语言转录。

访问官网

快速概览

参数量

~1.55B

上下文窗口

N/A

模态

audio, text

开源

许可证

MIT

价格

免费(开源)/ API 从 $0.006/分钟

发布日期

2024-09

开发者

OpenAI

关于

Whisper Large v3 是 OpenAI 最先进的自动语音识别模型,能在 99+ 种语言上以接近人类的准确度进行转录和翻译。约 15.5 亿参数,基于 Transformer 的编码器-解码器架构,在 68 万小时多语言音频数据上训练。支持多语言转录、直接翻译成英语、自动语言识别和时间戳生成。MIT 开源许可意味着可以本地运行、无限转录且完全隐私。对于构建语音应用的开发者来说,Whisper Large v3 在开源包中提供了研究级准确度。

优势

  • +99+ 语言接近人类的准确度
  • +开源且 MIT 许可
  • +本地运行,适合隐私敏感场景
  • +处理噪音、多人说话和口音

不足

  • 大型模型实时运行需要较多算力
  • 专业领域术语准确度较低
  • 无内置说话人识别

适用场景

大规模多语言音频转录

隐私敏感的语音处理

内容无障碍和字幕生成

语音控制应用和助手

价格

开源

$0

  • 完整模型权重
  • 本地运行
  • 无限使用
  • 完全隐私

API

From $0.006/minute

  • 可扩展部署
  • 无需 GPU
  • 99+ 语言
  • 翻译

基准测试

基准Whisper Large v3对比模型
Common Voice15.1% WERGoogle Speech: 18.2% WER

技术规格

参数量

~1.55B

上下文窗口

N/A

模态

audio, text

语言

EnglishChineseSpanishArabicFrench+4

开源

许可证

MIT

开发者

OpenAI

发布日期: 2024-09

分享这篇文章

相关模型