Whisper 是OpenAI 开发的一款开源语音识别转文字神经网络大模型,该模型的英语语音识别方面已经接近了人类的水平。
这篇文章就给大家分享如何在你的电脑中使用这款大模型,来实现语音转换成文本,并且还支持语音翻译功能。
Whisper模型版本选择
Whisper 共有五种型号尺寸,如果你要使用中文语音转录我们一般使用medium 模型。你也可以根据你的电脑性能下载其他的模型。
Whisper安装使用教程
Whisper本身只能使用命令行来操作,为了方便更多的小伙伴使用,这里给大家找了一个Whisper 的图形化应用大家只需要导入 Whisper 模型即可直接使用。
1,下载WhisperDesktop和Whisper模型
我已经将这两个文件都打包放在了网盘,大家可以直接下载。
网盘打包地址:https://pan.baidu.com/s/1__Xp9tBa7WDQ0eHw3dv9IQ?pwd=bang 提取码:bang
WhisperDesktop官网:https://github.com/Const-me/Whisper
WhisperDesktop官网(MAC版):https://whisperautocaptions.com/
Whisper模型下载地址:https://huggingface.co/ggerganov/whisper.cpp/tree/main
推荐:ggml-medium.bin 这个大模型
2,下载后解压 WhisperDesktop 压缩包,双击打开WhisperDesktop.exe文件。
3,然后选择你下载的Whisper模型,点击OK按钮。
4,语言选择音频文件的语言,然后导入音频文件。设置输出为text file 、保存地址可以直接勾选和音频文件存放在一起。
然后点击Transcribe 按钮 开始转录速度还是挺快的。我用我之前的视频语音文件测试了下,准确率还是挺高的。
5,音频捕捉模式,如果你想一遍说话一边让它给你转录为文字,可以点击Audio Capture 。
选择你好你电脑的麦克风,然后点击Capture ,就可以直接说话了,他会自动帮你将语音转录为文字,并保存在文本中。
下面是我用董宇辉来河南在抖音介绍河南的视频转录的,由于成语含量太高,准确率有点低,如果是日常对话问题不大。