5分钟Whisper测评，看完没有人比你更懂「语音识别」|快3技巧准确率100_彩票

最早是想把自己喜欢的视频文案保存起来，因为视频不仅占用空间大，还没办法全文索引。

将视频的内容“文本化”，我们就能提炼出视频的关键信息，而且还能获得视频细小处的一些遣词用字。

把20GB的视频，压缩为2MB的文本。

这在以前是断不敢想像的事情，然而现在有了人工智能的加持，这一切都变得触手可及。

国内最早免费开放在线语音转文字的应用，是网易见外。

它不但是速度快，准确率还超出了人们预期，真正做到了一键转录，被盛赞业界良心，然后没多久，它就下架了。

而现在接棒的是——飞书妙记。

飞书妙记是抖音旗下产品，注册登陆后就直接上传音频和视频，即使不需要介绍，你也一看就知道怎么用。

速度：快，10分钟视频只花费了1分25秒。

准确率：绝大部分内容都能正确识别，而且能区分不同说话人。

特色功能：支持中英日3种语言，能自动添加标点符号和章节分段，支持免费导出为TXT和SRT格式。

如果要说有什么缺点的话，那就飞书妙记的免费用存储空间，从原来的100G变成2G，一下子就寒酸了许多。

但和同类产品相比，飞书妙记仍然是更好的选择。

比如讯飞听见、钉钉闪记、阿里云、百度云等产品，它们要么免费额度少，要么需要申请API，使用门槛高。

而飞书妙记，你可以将视频转换为音频来缩小体积，又或者通过删除已经转写的内容来释放空间。

换句话说，你还是可以无限白票。

如果你需要转录的内容很多，又或者很长，那么，使用桌面软件来操作会更加方便。

而在这个领域的佼佼者是——剪映。

剪映也是是抖音旗下产品，它是一款桌面视频剪辑软件，但同时提供了识别语音功能，使用时需要联网使用。

使用方法也很简单，点击导航栏“文本”，然后选择“智能字幕”，即可一键生成字幕。

同样是抖音系产品，剪映的准确率也很高，转录速度更是极奇的快，同样10分钟的视频，剪映只用32秒。

而且，我们不用像“飞书妙记”那样担心空间不够用。

因为抖音不担心自己的语音识别技术被白票，它们担心的，是没有人上传视频到抖音。

抖音推出剪映的目的，是为了降低用户制作视频门槛，让更多的人参与到视频制作来，抖音的收益在别处罢了。

目前国内能与剪映对标的，当属B站推出的“必剪”。

它的产品逻辑一样，也是为了方便用户创作视频，然后上传到B站。

然而在免费额度上，必剪远不如剪映，必剪只支持15分钟的音频转录，而剪映最大支持2小时且不限使用次数。

而且，剪映现在还支持导出字幕，你可以将导出的字幕用在其它软件上，抖音格局大了。

应该说，剪映是视频创作者的必备。

上面的两款应用都需要联网使用，如果你比较在意隐私的问题，那么你需要一款离线的语音识别工具。

OpeanAI推出的Whipser语音识别模型，绝对是目前最好的选择，没有之一。

对，它和ChatGPT是同门师兄弟。

Whipser多语言语音识别模型，通过了68万小时的语音数据训练，支持99种语言，对英文的表现更是强无敌。

更重要的是，它开源免费，在电脑上就能离线使用。

在速度方面。

为应对不同的语音转录需求，Whipser推出了tiny、base、small、medium、large5个档次的模型。

Whisper使用了Python开发，安装后，在文件所在目录打开终端，运行whisperaudio.mp3即可进行转录。

想要自定义设置的话，则可以在后面追加命令参数，具体包括：

whisperaudio.mp3--命令参数

--task

指定转录方式，默认使用--tasktranscribe转录模式，--tasktranslate则为翻译模式，目前只支持英文。

--model

指定使用模型，默认使用--modelsmall，Whisper还有英文专用模型，就是在名称后加上.en，这样速度更快。

--language

指定转录语言，默认会截取30秒来判断语种，但最好指定为某种语言，比如指定中文是--languageChinese。

--device

指定硬件加速，默认使用auto自动选择，--devicecuda则为显卡，cpu就是CPU，mps为苹果M1芯片。

如果使用Python命令行这种形式，门槛太高了，那么图形化软件WhisperDesktop会是一个简单的方案。

使用方法分为两步：下载软件+载入模型。

下载WhisperDesktop后，点击运行，然后加载模型文件，最后选择文件即可进行转录。

由于支持GPU硬解，转录速度非常的快，我测试了一个2分钟的视频，使用medium模型，花费不到20秒。

PS：具体还得看显卡的性能。

另一款基于Whisper的图形化软件是Buzz，相比WhipserDesktop，Buzz支持Windows、macOS、Linux。

使用方法也是：安装软件+下载模型。

Buzz的安装包体积稍大，同时Buzz使用的是.pt后缀名的模型文件，运行后软件会自动下载模型文件。

但最好是提前下好模型文件，然后放在指定的位置。

Mac：~/.cache/whisperWindows：C:\Users\<你的用户名>\.cache\whisper

但Buzz使用的是CPU软解，目前还不支持GPU硬解。

下面我们对飞书妙记、剪映、Whisper这三款语音识别工具进行一下对比。

就准确性而言。

三款产品里，飞书和剪映在中文识别上的效果更好，大体与Whipser的large模型相当。

原因是联网转录，“云词库”会自动选择更符合上下文的同音词。

Whisper的音频数据只有1/3来自非英语，在准确性方面，Whisper对英文的识别错误率为4.2，中文则为14.7。

如果转录的内容是英文，那么用samll模型就能保证绝大多数正确。

而如果转录的内容是中文，那么至少要用medium模型，才能保证绝大多数正确。

Whisper强在多语言支持，还有超高的英语识别率。

在转录速度方面。

飞书妙记和剪映都需要联网上传，其中剪映的速度最快，而Whisper的转录速度，极度依赖显卡的加持。

下面是使用显卡加速，同一段10分钟视频的速度对比。

而无论怎样，任何一款语音识别工具都没办法保证100%准确，我们还需要有一定的技巧。

如果转录的是歌曲，又或者有嘈音，背景音乐很大，使用人声分离工具，突出人声，那么识别效果将大大提高。

这样的工具很多，可以选择在线应用，也可以选择免费开源的UVR5。

Whisper有时转录出来的文本是繁体中文，又或者你想把字幕翻译为英语来做双语字幕。

一个简单的方法，就是将字幕文件在Chrome浏览器中打开，使用自带的翻译功能，即可一键翻译为想要的语言。

或者，你也可以选择更专业的字幕工具，比如SubtitleEdit。

当然，使用ChatGPT翻译工具SubtitleTranslator会更加准确，不过前提是你有ChatGPT的APIKey。

一个简单的方法，是利用ChatGPT来重新排版，只需要前置输入“提示词”就可以了。

需要注意的是，GPT-3.5输出的最大限制是777个字符，所以每一次输入最好不要超过777个中文。

但如果你用的是GPT-4的话，就没有这个限制。

如果我有大量的视频转文字，还有视频字幕生成需求，有没有办法一键转录？

有的！

奶酪研究出了一套方法，只需要一个.bat文件即可一键转录，具体我会在下期《A25-语音一键识别》中介绍。

除了转录视频，有没有办法实时转录直播或者播放中的视频？

当然也有！

我们同样可以利用Whisper来实现同声传译，具体我们在下下期《A28-同声传译》中再做介绍。

OpenAI发布的Whisper多语言语音识别模型，绝对算得上是一个“游戏改变者”。

在可预见的未来。

首先，语音识别将会彻底免费，并成为一项公共服务。

其次，视频的语言屏障将会彻底打破，视频一键生成字幕，甚至自动生成字幕，已经成为现实。

还有，视频也将转向文字化，一个20GB的视频内容，可以被压缩为2MB的文本内容，并且能全文索引。

最后，Whisper的入场，也会加速人工智能从单模态到多模态的发展。

动动嘴皮就能拍出一部电影的魔幻场景，也正在发生！

强人工智能时代的我们，太幸福啦！

本专栏「人工智能指南」致力于提高“人工智能领域”的姿势水平。

THE END

5分钟Whisper测评，看完没有人比你更懂「语音识别」

考前特训高考地理选择题又快准确率又高的答题技巧，看这里题干排除法本题

产品经理/运营经理考题考生答卷整理公布(中篇）邦阅网

多能工培养方案（共12篇）

医院导诊工作总结通用12篇

5分钟Whisper测评，看完没有人比你更懂「语音识别」

就业进行时2023年10月10日10月11日就业信息汇总

工厂薪酬结构方案（通用15篇）

3d通杀一码准确率100定位杀码app免费下载3d通杀一码准确率100定位杀码技巧手机版下载v1.0.0

100%准确测试二胎生男孩女孩，这22种方法任选其一

妇产科工作总结（精选14篇）

公司档案管理制度实施细则(精选5篇)

北京考试报

2023年工作总结及工作计划（精选26篇）

手相看男孩女孩准确率99%

民间一个月生儿子祖传秘方揭秘，准确率是否100%一看便知