5分钟Whisper测评,看完没有人比你更懂「语音识别」

最早是想把自己喜欢的视频文案保存起来,因为视频不仅占用空间大,还没办法全文索引。

将视频的内容“文本化”,我们就能提炼出视频的关键信息,而且还能获得视频细小处的一些遣词用字。

把20GB的视频,压缩为2MB的文本。

这在以前是断不敢想像的事情,然而现在有了人工智能的加持,这一切都变得触手可及。

国内最早免费开放在线语音转文字的应用,是网易见外。

它不但是速度快,准确率还超出了人们预期,真正做到了一键转录,被盛赞业界良心,然后没多久,它就下架了。

而现在接棒的是——飞书妙记。

飞书妙记是抖音旗下产品,注册登陆后就直接上传音频和视频,即使不需要介绍,你也一看就知道怎么用。

速度:快,10分钟视频只花费了1分25秒。

准确率:绝大部分内容都能正确识别,而且能区分不同说话人。

特色功能:支持中英日3种语言,能自动添加标点符号和章节分段,支持免费导出为TXT和SRT格式。

如果要说有什么缺点的话,那就飞书妙记的免费用存储空间,从原来的100G变成2G,一下子就寒酸了许多。

但和同类产品相比,飞书妙记仍然是更好的选择。

比如讯飞听见、钉钉闪记、阿里云、百度云等产品,它们要么免费额度少,要么需要申请API,使用门槛高。

而飞书妙记,你可以将视频转换为音频来缩小体积,又或者通过删除已经转写的内容来释放空间。

换句话说,你还是可以无限白票。

如果你需要转录的内容很多,又或者很长,那么,使用桌面软件来操作会更加方便。

而在这个领域的佼佼者是——剪映。

剪映也是是抖音旗下产品,它是一款桌面视频剪辑软件,但同时提供了识别语音功能,使用时需要联网使用。

使用方法也很简单,点击导航栏“文本”,然后选择“智能字幕”,即可一键生成字幕。

同样是抖音系产品,剪映的准确率也很高,转录速度更是极奇的快,同样10分钟的视频,剪映只用32秒。

而且,我们不用像“飞书妙记”那样担心空间不够用。

因为抖音不担心自己的语音识别技术被白票,它们担心的,是没有人上传视频到抖音。

抖音推出剪映的目的,是为了降低用户制作视频门槛,让更多的人参与到视频制作来,抖音的收益在别处罢了。

目前国内能与剪映对标的,当属B站推出的“必剪”。

它的产品逻辑一样,也是为了方便用户创作视频,然后上传到B站。

然而在免费额度上,必剪远不如剪映,必剪只支持15分钟的音频转录,而剪映最大支持2小时且不限使用次数。

而且,剪映现在还支持导出字幕,你可以将导出的字幕用在其它软件上,抖音格局大了。

应该说,剪映是视频创作者的必备。

上面的两款应用都需要联网使用,如果你比较在意隐私的问题,那么你需要一款离线的语音识别工具。

OpeanAI推出的Whipser语音识别模型,绝对是目前最好的选择,没有之一。

对,它和ChatGPT是同门师兄弟。

Whipser多语言语音识别模型,通过了68万小时的语音数据训练,支持99种语言,对英文的表现更是强无敌。

更重要的是,它开源免费,在电脑上就能离线使用。

在速度方面。

为应对不同的语音转录需求,Whipser推出了tiny、base、small、medium、large5个档次的模型。

Whisper使用了Python开发,安装后,在文件所在目录打开终端,运行whisperaudio.mp3即可进行转录。

想要自定义设置的话,则可以在后面追加命令参数,具体包括:

whisperaudio.mp3--命令参数

--task

指定转录方式,默认使用--tasktranscribe转录模式,--tasktranslate则为翻译模式,目前只支持英文。

--model

指定使用模型,默认使用--modelsmall,Whisper还有英文专用模型,就是在名称后加上.en,这样速度更快。

--language

指定转录语言,默认会截取30秒来判断语种,但最好指定为某种语言,比如指定中文是--languageChinese。

--device

指定硬件加速,默认使用auto自动选择,--devicecuda则为显卡,cpu就是CPU,mps为苹果M1芯片。

如果使用Python命令行这种形式,门槛太高了,那么图形化软件WhisperDesktop会是一个简单的方案。

使用方法分为两步:下载软件+载入模型。

下载WhisperDesktop后,点击运行,然后加载模型文件,最后选择文件即可进行转录。

由于支持GPU硬解,转录速度非常的快,我测试了一个2分钟的视频,使用medium模型,花费不到20秒。

PS:具体还得看显卡的性能。

另一款基于Whisper的图形化软件是Buzz,相比WhipserDesktop,Buzz支持Windows、macOS、Linux。

使用方法也是:安装软件+下载模型。

Buzz的安装包体积稍大,同时Buzz使用的是.pt后缀名的模型文件,运行后软件会自动下载模型文件。

但最好是提前下好模型文件,然后放在指定的位置。

Mac:~/.cache/whisperWindows:C:\Users\<你的用户名>\.cache\whisper

但Buzz使用的是CPU软解,目前还不支持GPU硬解。

下面我们对飞书妙记、剪映、Whisper这三款语音识别工具进行一下对比。

就准确性而言。

三款产品里,飞书和剪映在中文识别上的效果更好,大体与Whipser的large模型相当。

原因是联网转录,“云词库”会自动选择更符合上下文的同音词。

Whisper的音频数据只有1/3来自非英语,在准确性方面,Whisper对英文的识别错误率为4.2,中文则为14.7。

如果转录的内容是英文,那么用samll模型就能保证绝大多数正确。

而如果转录的内容是中文,那么至少要用medium模型,才能保证绝大多数正确。

Whisper强在多语言支持,还有超高的英语识别率。

在转录速度方面。

飞书妙记和剪映都需要联网上传,其中剪映的速度最快,而Whisper的转录速度,极度依赖显卡的加持。

下面是使用显卡加速,同一段10分钟视频的速度对比。

而无论怎样,任何一款语音识别工具都没办法保证100%准确,我们还需要有一定的技巧。

如果转录的是歌曲,又或者有嘈音,背景音乐很大,使用人声分离工具,突出人声,那么识别效果将大大提高。

这样的工具很多,可以选择在线应用,也可以选择免费开源的UVR5。

Whisper有时转录出来的文本是繁体中文,又或者你想把字幕翻译为英语来做双语字幕。

一个简单的方法,就是将字幕文件在Chrome浏览器中打开,使用自带的翻译功能,即可一键翻译为想要的语言。

或者,你也可以选择更专业的字幕工具,比如SubtitleEdit。

当然,使用ChatGPT翻译工具SubtitleTranslator会更加准确,不过前提是你有ChatGPT的APIKey。

一个简单的方法,是利用ChatGPT来重新排版,只需要前置输入“提示词”就可以了。

需要注意的是,GPT-3.5输出的最大限制是777个字符,所以每一次输入最好不要超过777个中文。

但如果你用的是GPT-4的话,就没有这个限制。

如果我有大量的视频转文字,还有视频字幕生成需求,有没有办法一键转录?

有的!

奶酪研究出了一套方法,只需要一个.bat文件即可一键转录,具体我会在下期《A25-语音一键识别》中介绍。

除了转录视频,有没有办法实时转录直播或者播放中的视频?

当然也有!

我们同样可以利用Whisper来实现同声传译,具体我们在下下期《A28-同声传译》中再做介绍。

OpenAI发布的Whisper多语言语音识别模型,绝对算得上是一个“游戏改变者”。

在可预见的未来。

首先,语音识别将会彻底免费,并成为一项公共服务。

其次,视频的语言屏障将会彻底打破,视频一键生成字幕,甚至自动生成字幕,已经成为现实。

还有,视频也将转向文字化,一个20GB的视频内容,可以被压缩为2MB的文本内容,并且能全文索引。

最后,Whisper的入场,也会加速人工智能从单模态到多模态的发展。

动动嘴皮就能拍出一部电影的魔幻场景,也正在发生!

强人工智能时代的我们,太幸福啦!

本专栏「人工智能指南」致力于提高“人工智能领域”的姿势水平。

THE END
1.知识点科普:极速快?3技巧准确率100极速快?3技巧准确率100網【hf855? C C】【筘-590 28 69】網【HF799? vip】如果你是刚刚玩我来教教你如果你已经玩很久了却不稳我来拉拉你,如果你已经遍体鳞伤,我来帮帮你。 推荐视频 已经到底了 热门视频 已经到底了 https://www.sohu.com/a/833105727_122140023
2.User快3公式技巧准确率100快3公式技巧准确率100 Member for 18 days Last seen more than a week ago Network profile Profile Activity Summary Answers Questions Tags Articles Badges Bounties Reputation All actions 1 Reputation Post Time Graph This user has no reputation changeshttps://stackoverflow.com/users/26982496/%E5%BF%AB3%E5%85%AC%E5%BC%8F%E6%8A%80%E5%B7%A7%E5%87%86%E7%A1%AE%E7%8E%87100?tab=reputation
3.『科普盘点』快三技巧准确率100公式百科/知乎手机知乎网快三技巧准确率100公式【导师QQ:6902842】【罔:678qy.cc】【ac777.vip】牙签万轴裹红绡,王粲书同付火烧。【QIANYIFA】 不于祖龙留面目,遗篇那得到今朝。令节晓澄霁,四郊烟霭空。天清白露洁,菊散黄金丛。 寡德荷天贶,顺时休百工。岂怀歌钟乐,思为君臣同。 https://vk.com/topic-224883735_49585316
4.独家揭秘快丨3技巧准确率100经验分享独家揭秘-快丨3技巧准确率100-经验分享 新冬0Y发布时间:08-22 13:09 0 全部评论 (0) 暂无评论销量排行榜 总榜单 Model Y 24.99-35.49万 全国销量48202 查报价单 海鸥 6.98-8.58万 全国销量47915 查报价单 宋PLUS新能源 12.98-18.98万 全国销量42382 查报价单 人气排行榜 总榜单 星瑞 9.97-14.57万 https://www.yoojia.com/video/6617799216772939961.html
5.快3大小单双位技巧准确率99谁有快3精准计划群快3彩票逐渐受到广大彩民的关注和喜爱,其简单易懂的玩法和快速开奖的特点让人乐在其中。对于快3彩票的大小单双位,如何提高准确率成为了许多彩民探索的问题。在这里,我们为大家分享一些快3大小单双位的准确率提升技巧,并介绍一下快3精准计划群以及幸运快3大小单双和值预http://yangzhaozs.com/
6.快乐8选号技巧准确率100唯彩看球给大家带来了快乐8选号技巧,快来一起看看吧~ 技巧一:追号 1、平追 追“单”号不可以使用“平追”方式,如追一个号,每一期追1倍投入2元,中出后即收回4元,如当期没有中出,下期将再投注2元,中出后持平,如果再没有中出,后面的投入就必须加倍收回损失,否则投入再多的期,中回后也只能有4元的奖金。https://vipc.cn/article/622c0c2f141389001a0a3fd9
7.3d通杀一码技巧准确率超高就变成9选3,中奖机率就会提高很多,今天介绍的3d通杀一码技巧,其实非常简单,准确率至少95%,快来一https://h5.bbs.17500.cn/forum/20/thread/10588938?page=1
8.福彩3D独门选号技巧,确保100%准确率!将0-9分解成0567、138、249三个小区,经过统计一年的3D游戏开奖号码发现,同时出现在138区或249区的组合(包括组三和组六)一般不会超过3-5期。大多数开奖号码经常交叉出现在两个小区内,同时出现在三个小区的情况也不多见。 二、灵活运用'黄金分割点'法: https://www.360doc.cn/article/63956987_1097680852.html
9.UCBData100:数据科学的原理和技巧:第二十一章到第二十六章21.2.3 使用CASE的条件语句 在使用pandas时,我们经常遇到希望使用某种形式的条件语句生成新列的情况。例如,假设我们想根据其发行年份将电影标题描述为“老”、“中年”或“新”。 在SQL 中,使用CASE子句执行条件操作。在概念上,CASE的行为很像CAST操作:它创建一个新列,然后我们可以SELECT它以出现在输出中。CASE子句https://developer.aliyun.com/article/1427180
10.如何快速提高打字速度快速提升打字技巧详细介绍学会打字是电脑入门的第一门基础课程,下面笔者和大家分享下如何快速提高打字速度的小技巧: 1. 准确是第一前提 我们反复说打字是一种技能,并不是所有的人都可以达到飞速击键的状态,一个打字高手也不可能在历次比赛中都发挥得同样出色。对于大部分人来说,达到每分钟200击的速度不是高不可攀,但是将错率控制在3‰https://g.pconline.com.cn/x/292/10017558.html
11.gan神经网络是如何训练的神经网络训练技巧模型的权重(weights)是随机初始化的,此时若选择一个较大的学习率,可能带来模型的不稳定(振荡),选择Warmup预热学习率的方式,可以使得开始训练的几个epoches或者一些steps内学习率较小,在预热的小学习率下,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变得更快,模型效果更佳https://blog.51cto.com/u_39037/6756496
12.BAT机器学习面试1000题系列abcd统计考勤用啥函数当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化,也学习一个线性的分类器,即线性支持向量机,又称为软间隔支持向量机;当训练数据线性不可分时,通过使用核技巧及软间隔最大化,学习非线性支持向量机。https://m.blog.csdn.net/sinat_35512245/article/details/78796328