最早是想把自己喜欢的视频文案保存起来,因为视频不仅占用空间大,还没办法全文索引。
将视频的内容“文本化”,我们就能提炼出视频的关键信息,而且还能获得视频细小处的一些遣词用字。
把20GB的视频,压缩为2MB的文本。
这在以前是断不敢想像的事情,然而现在有了人工智能的加持,这一切都变得触手可及。
国内最早免费开放在线语音转文字的应用,是网易见外。
它不但是速度快,准确率还超出了人们预期,真正做到了一键转录,被盛赞业界良心,然后没多久,它就下架了。
而现在接棒的是——飞书妙记。
飞书妙记是抖音旗下产品,注册登陆后就直接上传音频和视频,即使不需要介绍,你也一看就知道怎么用。
速度:快,10分钟视频只花费了1分25秒。
准确率:绝大部分内容都能正确识别,而且能区分不同说话人。
特色功能:支持中英日3种语言,能自动添加标点符号和章节分段,支持免费导出为TXT和SRT格式。
如果要说有什么缺点的话,那就飞书妙记的免费用存储空间,从原来的100G变成2G,一下子就寒酸了许多。
但和同类产品相比,飞书妙记仍然是更好的选择。
比如讯飞听见、钉钉闪记、阿里云、百度云等产品,它们要么免费额度少,要么需要申请API,使用门槛高。
而飞书妙记,你可以将视频转换为音频来缩小体积,又或者通过删除已经转写的内容来释放空间。
换句话说,你还是可以无限白票。
如果你需要转录的内容很多,又或者很长,那么,使用桌面软件来操作会更加方便。
而在这个领域的佼佼者是——剪映。
剪映也是是抖音旗下产品,它是一款桌面视频剪辑软件,但同时提供了识别语音功能,使用时需要联网使用。
使用方法也很简单,点击导航栏“文本”,然后选择“智能字幕”,即可一键生成字幕。
同样是抖音系产品,剪映的准确率也很高,转录速度更是极奇的快,同样10分钟的视频,剪映只用32秒。
而且,我们不用像“飞书妙记”那样担心空间不够用。
因为抖音不担心自己的语音识别技术被白票,它们担心的,是没有人上传视频到抖音。
抖音推出剪映的目的,是为了降低用户制作视频门槛,让更多的人参与到视频制作来,抖音的收益在别处罢了。
目前国内能与剪映对标的,当属B站推出的“必剪”。
它的产品逻辑一样,也是为了方便用户创作视频,然后上传到B站。
然而在免费额度上,必剪远不如剪映,必剪只支持15分钟的音频转录,而剪映最大支持2小时且不限使用次数。
而且,剪映现在还支持导出字幕,你可以将导出的字幕用在其它软件上,抖音格局大了。
应该说,剪映是视频创作者的必备。
上面的两款应用都需要联网使用,如果你比较在意隐私的问题,那么你需要一款离线的语音识别工具。
OpeanAI推出的Whipser语音识别模型,绝对是目前最好的选择,没有之一。
对,它和ChatGPT是同门师兄弟。
Whipser多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,对英文的表现更是强无敌。
更重要的是,它开源免费,在电脑上就能离线使用。
在速度方面。
为应对不同的语音转录需求,Whipser推出了tiny、base、small、medium、large5个档次的模型。
Whisper使用了Python开发,安装后,在文件所在目录打开终端,运行whisperaudio.mp3即可进行转录。
想要自定义设置的话,则可以在后面追加命令参数,具体包括:
whisperaudio.mp3--命令参数
--task
指定转录方式,默认使用--tasktranscribe转录模式,--tasktranslate则为翻译模式,目前只支持英文。
--model
指定使用模型,默认使用--modelsmall,Whisper还有英文专用模型,就是在名称后加上.en,这样速度更快。
--language
指定转录语言,默认会截取30秒来判断语种,但最好指定为某种语言,比如指定中文是--languageChinese。
--device
指定硬件加速,默认使用auto自动选择,--devicecuda则为显卡,cpu就是CPU,mps为苹果M1芯片。
如果使用Python命令行这种形式,门槛太高了,那么图形化软件WhisperDesktop会是一个简单的方案。
使用方法分为两步:下载软件+载入模型。
下载WhisperDesktop后,点击运行,然后加载模型文件,最后选择文件即可进行转录。
由于支持GPU硬解,转录速度非常的快,我测试了一个2分钟的视频,使用medium模型,花费不到20秒。
PS:具体还得看显卡的性能。
另一款基于Whisper的图形化软件是Buzz,相比WhipserDesktop,Buzz支持Windows、macOS、Linux。
使用方法也是:安装软件+下载模型。
Buzz的安装包体积稍大,同时Buzz使用的是.pt后缀名的模型文件,运行后软件会自动下载模型文件。
但最好是提前下好模型文件,然后放在指定的位置。
Mac:~/.cache/whisperWindows:C:\Users\<你的用户名>\.cache\whisper
但Buzz使用的是CPU软解,目前还不支持GPU硬解。
下面我们对飞书妙记、剪映、Whisper这三款语音识别工具进行一下对比。
就准确性而言。
三款产品里,飞书和剪映在中文识别上的效果更好,大体与Whipser的large模型相当。
原因是联网转录,“云词库”会自动选择更符合上下文的同音词。
Whisper的音频数据只有1/3来自非英语,在准确性方面,Whisper对英文的识别错误率为4.2,中文则为14.7。
如果转录的内容是英文,那么用samll模型就能保证绝大多数正确。
而如果转录的内容是中文,那么至少要用medium模型,才能保证绝大多数正确。
Whisper强在多语言支持,还有超高的英语识别率。
在转录速度方面。
飞书妙记和剪映都需要联网上传,其中剪映的速度最快,而Whisper的转录速度,极度依赖显卡的加持。
下面是使用显卡加速,同一段10分钟视频的速度对比。
而无论怎样,任何一款语音识别工具都没办法保证100%准确,我们还需要有一定的技巧。
如果转录的是歌曲,又或者有嘈音,背景音乐很大,使用人声分离工具,突出人声,那么识别效果将大大提高。
这样的工具很多,可以选择在线应用,也可以选择免费开源的UVR5。
Whisper有时转录出来的文本是繁体中文,又或者你想把字幕翻译为英语来做双语字幕。
一个简单的方法,就是将字幕文件在Chrome浏览器中打开,使用自带的翻译功能,即可一键翻译为想要的语言。
或者,你也可以选择更专业的字幕工具,比如SubtitleEdit。
当然,使用ChatGPT翻译工具SubtitleTranslator会更加准确,不过前提是你有ChatGPT的APIKey。
一个简单的方法,是利用ChatGPT来重新排版,只需要前置输入“提示词”就可以了。
需要注意的是,GPT-3.5输出的最大限制是777个字符,所以每一次输入最好不要超过777个中文。
但如果你用的是GPT-4的话,就没有这个限制。
如果我有大量的视频转文字,还有视频字幕生成需求,有没有办法一键转录?
有的!
奶酪研究出了一套方法,只需要一个.bat文件即可一键转录,具体我会在下期《A25-语音一键识别》中介绍。
除了转录视频,有没有办法实时转录直播或者播放中的视频?
当然也有!
我们同样可以利用Whisper来实现同声传译,具体我们在下下期《A28-同声传译》中再做介绍。
OpenAI发布的Whisper多语言语音识别模型,绝对算得上是一个“游戏改变者”。
在可预见的未来。
首先,语音识别将会彻底免费,并成为一项公共服务。
其次,视频的语言屏障将会彻底打破,视频一键生成字幕,甚至自动生成字幕,已经成为现实。
还有,视频也将转向文字化,一个20GB的视频内容,可以被压缩为2MB的文本内容,并且能全文索引。
最后,Whisper的入场,也会加速人工智能从单模态到多模态的发展。
动动嘴皮就能拍出一部电影的魔幻场景,也正在发生!
强人工智能时代的我们,太幸福啦!
本专栏「人工智能指南」致力于提高“人工智能领域”的姿势水平。