简 介
1、whisper-large-v3 是openai公司的模型,可使用Python代码调用;
2、whisper-large-v3基础上chenxwh 制作了开源库insanely-fast-whisper ,可本地指令运行,或 Google Colab T4 GPU 运行;
3、以上两个模型应用,如果觉得使用复杂难度大,国内软件工程师制作了更简单的版本fast-whisper3。
以下分三部分介绍:
一
开源库
insanely-fast-whisper
https://github.com/chenxwh/insanely-fast-whisper
使用 OpenAI 的 Whisper Large v3 在不到 98 秒的时间内转录 300 分钟(5 小时)的音频。
在 Nvidia A100 - 80GB 上运行的一些基准测试
insanely-fast-whisper
本地安装
1、pip install pipx
2、pipx install insanely-fast-whisper
默认路径:
C:\Users\Administrator\AppData\Local\pipx\pipx\venvs\insanely-fast-whisper
pipx install insanely-fast-whisper --force --pip-args="--ignore-requires-python"
3、运行(cmd)
- 路径:
C:\Users\Administrator\AppData\Local\pipx\pipx\venvs\insanely-fast-whisper\Scripts
- 指令:
insanely-fast-whisper --file-name e:\huang.mp3
usage: insanely-fast-whisper.exe [-h]
[--file-name FILE_NAME ]
[--device-id DEVICE_ID]
[--transcript-path TRANSCRIPT_PATH]
[--model-name MODEL_NAME]
[--task {transcribe,translate}]
[--language LANGUAGE]
[--batch-size BATCH_SIZE]
[--flash FLASH]
[--timestamp {chunk,word}]
[--hf_token HF_TOKEN]
[--diarization_model DIARIZATION_MODEL]
Google Colab T4 GPU 运行
测试
insanely-fast-whisper
运行时间:2s
二
另一个分享
在开源whisper上加工,打包的翻译软件
更简单,更方便
large-v3
作者:万能君软件库
夸克网盘链接:https://pan.quark.cn/s/82b36b6adfa7提取码:JsyQ
运行时间
识别+翻译:30s
三
insanely-fast-whisper
源自
https://github.com/openai/whisper
Whisper 的性能因语言而异
下图显示了按语言large-v3和模型的性能细分,使用在 Common Voice 15 和 Fleurs 数据集上评估的large-v2WER(单词错误率)或 CER(字符错误率,以斜体显示)。
Whisper
命令行使用
(例)
1、使用medium模型转录音频文件中的语音:
whisper audio.flac audio.mp3 audio.wav --model medium
2、指定语言--language
whisper japanese.wav --language Japanese(cantonese)
3、--task translate会将演讲翻译成英语
whisper japanese.wav --language Japanese --task translate
4、查看所有可用选项
whisper --help
5、python使用
import whisper
model = whisper.load_model("base")
result = model.transcribe("huang.mp3")
print(result["text"])
6、python安装whisper
pip install -U openai-whisper
or
pip install git+https://github.com/openai/whisper.git
7、python 升级whisper
pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git
早期版本参考
Faster-whisper | 部署到 Google Colab, 输入网址,自动识别字幕保存。
Whisper 语音与文字互相转换 桌面简易版【非常好用,推荐】
转载于:https://mp.weixin.qq.com/s/pbY5yferZ9X_GBQUc82SmQ