Twitter刷粉丝网站 --twitter涨粉丝

首页 Twitter 作者：coolfensi 2022年11月21日热度：86 评论：0

时间：2022-11-21 17:25 热度：86°

羿阁丽翔凹非寺

物理位 | 社会公众号 QbitAI

迫近人类文明水准的音频电脑系统来了？

要说，OpenAI新开源了两个名叫「Whisper」的新音频电脑系统，据传在英语音频辨识各方面保有吻合人类文明水准的精确性和准确度！

除此以外，对相同腔调、专有名词的辨识效用也是会门的！

由此就在twitter上斩获4800+雅雷，1000+转贴。

网友们纷纷对它意料之外的强大功能表示惊讶。

不仅是英语，有人用法国诗人波德莱尔的《恶之花》进行了音频测试，得到的文本几乎与原文一致。

OpenAI联合创始人&首席科学家Ilya Sutskever就表示：

终于有两个靠谱的音频电脑系统能听懂我的腔调了。

前任特斯拉人工智能总监Andrej Karpathy甚至转贴评论：OpenAI正处于最好的状态中。

话不多说，让我们看看这个被好评如潮的音频系统究竟是怎么回事。

迫近人类文明水准的音频电脑系统

首先，Whisper最大特点是它使用的超大规模训练集：

它使用从网络上收集的68万小时的多语言、多任务监督数据进行训练。

这导致数据集的内容非常多元化，涵盖了许多相同环境、相同录音设备下、相同语言的音频。

具体而言，65%(438218小时)是英音频频和匹配的英语文本，大约18%(125739小时)是非英音频频和英语文本，而最后17%(117113小时)则是非英音频频和相应的文本。

其中，非英语部分共包含98种相同语言。

不过，虽然音频质量的多样性可以帮助提高训练模型的精确性，但转录文本质量的多样性并不是同样有益的。

初步检查显示，原始数据集中有大量不合格的、现有自动音频辨识(ASR)系统生成的转录文本。

而以往的研究表明，在人工和机器混合生成的数据集上进行训练，会显著损害翻译系统的性能。

为了解决这个问题，研究团队开发了几种自动过滤方法来辨识和删除低质量的数据源。

但值得一提的是，没有说话内容的片段会被留下，作为音频活动检测的训练数据。

其次，Whisper体系结构是一种简单的端到端方法，具体来说就是Transformer的编码器-解码器格式。

输入音频被分成30秒的片段，再转换成log-Mel谱图，然后传入编码器。

解码器被训练来预测相应的文本标题，并混合特殊标记，指示单一模型执行诸如语言辨识、多语言音频转录和英语音频翻译等任务。

除此之外，研究人员还为Whisper设置了5种相同的型号，以下是各模型大致的内存需求和相对速度，使用者可以自行选择。

但需要注意的是，只有large型号支持多语言，前4个模型都只支持英语。

不过不需要担心，与其他模型相比，英语音频辨识正是Whisper的核心竞争力。

实验结果证明，Whisper在Librispeech test-clean测试的错误率达到2.7%。

虽然这一数值与Wav2vec 2.0一样，但在零样本性能上，Whisper明显更稳健，平均误差减少了55%。

甚至零样本Whisper模型还缩小了与人类文明精确性之间的差距。

可以看出，与人类文明Alec相比，LibriSpeech模型的错误率大约是人类文明的两倍，而Whisper模型的精确性边界则包括Alec95%的置信区间。

研究团队

Whisper的研究团队来自OpenAI，共同一作有两位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI的机器学习研究员，也是indico.io的联合创始人。

Jong Wook Kim，在纽约大学获得了音乐技术专业的博士学位，研究方向包括多模态深度学习和音乐理解，目前是OpenAI的研究人员。

值得一提的是，研究团队指出，虽然目前Whisper还没有实时功能，但它的运行速度和内存大小表明，在这一基础上搭建实时音频辨识和翻译功能是可行的。

他们希望Whisper的高精度和易用性，将允许开发人员将音频接口添加到更广泛的应用程序中。

论文和GitHub链接附在文末，感兴趣的小伙伴们可以自取～

论文链接：

https://cdn.openai.com/papers/whisper.pdf

GitHub链接：

https://github.com/openai/whisperapproach

参考链接：

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter[3]https://news.ycombinator.com/item?id=32927360[4]https://twitter.com/alecrad[5]https://jongwook.kim/

— 完 —

物理位 QbitAI · 头条号签约

╭(′▽`)╯标签走丢啦~

正文到此结束

Facebook刷粉丝网站--facebook刷播放量平台

抖音涨播放量 --抖音刷赞网站