找回密码
 注册账号

QQ登录

微信登录

怎样评价谷歌语音合成的WaveNet和微软语音识别的“里程碑”?

摘要: 最近几周,语音交互领域非常的热闹,谷歌和微软的几则新闻相继刷爆了朋友圈,先来回顾下这三则新闻:首先是Google的DeepMind实验室9月初公布了其在语音合成领域的最新 ...
最近几周,语音交互领域非常的热闹,谷歌和微软的几则新闻相继刷爆了朋友圈,先来回顾下这三则新闻:

首先是Google的DeepMind实验室9月初公布了其在语音合成领域的最新成果WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法:参数化合成(Parameric TTS)与拼接式合成(Concatenative TTS)。

没几天,谷歌大脑团队成员在 GitHub 发布消息,开源了一个基于One Billion Word Benchmark预先训练过的模型。这个数据库含有大约 10 亿个单词,词汇有 80 万单词,大部分都是新闻数据。论文作者对 CNN 或 LSTM做了彻底研究,单一模型最好成绩将结果从 51.3 提高到 30.0(同时将参数数量减少了 20 倍),模型融合的后将混淆度(perplexity)从 41.0下降到 23.7。

随后,微软首席语音科学家黄学东在论文中表示,他们在近期产业标准Switchboard语音识别基准测试中,实现词错率(WER)低至6.3%的这一技术突破,这比IBM上周达到的6.6%WER下降了0.3%,达到目语音识别领域错误率最低的水平。这个突破被视为微软语音识别的里程碑。

怎样评价谷歌发布的WaveNet语音合成方法?

最引人关注的自然是Google发布的WaveNet。这是一个新的思路,在此之前,语音合成已经很长时间没有任何实质性进步,无非就是参数化和拼接式两种方法。

参数化语音合成是最常用也是历史最悠久的方法,就是利用数学模型对已知的声音进行排列、组装成词语或句子来重新创造声音数据。当前机器人的发音主要就是采用的这种方法,不过参数化合成的语音听起来总是不自然,真的就像机器发出的声音。

另外一种就是拼接式语音合成,先录制单一说话者的大量语音片段,建立一个大型语料库,然后简单地从中进行选择并合成完整的大段音频、词语和句子。我们有时会听到机器模仿某些明星的声音,其背后技术就是这种方法。但是这种方法要求语料库非常大,而且处理不好就经常产生语音毛刺和语调的诡异变化,并且无法调整语音的抑扬顿挫。
WaveNet则引入了一种全新的思路,区别于上面两种方法,这是一种从零开始创造整个音频波形输出的技术。WaveNet利用真实的人类声音剪辑和相应的语言、语音特征来训练其卷积神经网络,让其能够辨别语音和语言的模式。WaveNet的效果是惊人的,其输出的音频明显更接近自然人声。


WaveNet技术无疑是计算机语音合成领域的一大突破,也在业界引起了广泛讨论,其最大缺点就是计算量太大,但是从公开的论文来看,其中的细节还都存在很多优化方法。事实上,一旦新的思路和模型确定,计算优化只是工程问题,自然语音合成距离我们又迈进了一大步!

怎样评价微软语音识别的“里程碑”?

微软例行的PR新闻而已,没有多大参考意义,即便谷歌开源的模型也是这样。自从Siri发布以来,每年我们都会看到大量这种将语音识别率提升到某某级别的新闻,但是实际结果呢?语音交互一直没有走进千家万户,总是与我们的预期差了很多。


首先来看,谷歌开源的预训练模型和微软语音识别率的“里程碑”,其实都是基于公开测试样本库的模型改进。业界都很清楚,除非思路和模型有颠覆性改变,模型的优化实际上带来的提升空间非常有限,而训练集合的数据深度、广度和匹配才是当前提升识别率的关键,但是这也是真实场景应用中最为头疼的事情,需要借助麦克风阵列和声学技术处理和匹配。

例如谷歌开源的预训练模型,其数据库主要是基于新闻报道,这种类型的数据比起口语数据更加规范。但是在实际的应用中,模型面对的通常是非正式化的数据。所以这种模型能否适应实际应用,目前来说依然是一个大问号。

微软基于NIST 2000 Switchboard的集合相比IBM下降了0.3%,搞不明白微软这个有啥可宣传的,各家测试过程中经常会跑出各种各样的WER,而且这种在标准测试集合中的提升幅度对实际应用压根没任何影响。微软真是太喜欢写论文了,而且最近总会被动跟着谷歌做这类无关痛痒的宣传。

其次再说,语音识别模型方面真的没有什么太大的新闻,HTK和Kaldi两大语音识别开源平台基本上已经集成了最好用的一些模型,而现在大量研究人员做的无非就是优化和改进模型,但是区别都不是太大。每家公司报的95%和97%的语音识别率也仅仅是个参考意义,因为每家公司训练的样本集和测试集都不一样,这个参数实际上没有可对比性。最为重要的是,这和实际环境的语音识别率差别很大,对于非规则语音来说,匹配是个极其难以解决的问题,这需要前端和后端都对语音数据进行声学方面的处理。

最后再说,当前的语音交互还有很多痛点要解决,首当其冲的就是人机交互在真实环境的自适应性。比如现在的语音交互设备要求说话要靠近,发音要标准,环境要安静等等,这都需要麦克风进行处理。其实所有真实场景的模式识别都会遇到这个问题,比如人脸识别,对光线、角度、距离也要有一定的要求。

另外强调,人工智能现在来看还没有多少智能,这是一个重人力、重资本的行业,其所谓的智能基本都是依靠巨大的人力和财力投入换来的,这也是制约人工智能发展最大的瓶颈。即便训练一个简单的模型,各家公司就需要在数据采集和标注上投入巨额经费,另外还有流量和计算资源的投入。可怕的是,若训练结果不满意这些投入基本上都是水漂,再加上声学感知层面的处理和匹配,人工智能这个链条,真的不是一家创业公司随随便便玩动的。(陈孝良)

怎样评价谷歌语音合成的WaveNet和微软语音识别的“里程碑”?
好东西一定要看看!
评论 支持 反对

举报

论坛有你更精彩!
评论 支持 反对

举报

大家都不容易!
评论 支持 反对

举报

谢谢您的分享!
评论 支持 反对

举报

好东西一定要看看!
评论 支持 反对

举报

好东西一定要看看!
评论 支持 反对

举报

以后多分享一些这样的有价值的帖子啊
评论 支持 反对

举报

以后多分享一些这样的有价值的帖子啊
评论 支持 反对

举报

谢谢您的分享!
评论 支持 反对

举报

以后多分享一些这样的有价值的帖子啊
评论 支持 反对

举报

好东西一定要看看!
评论 支持 反对

举报

好东西一定要看看!
评论 支持 反对

举报

谢谢您的分享!
评论 支持 反对

举报

大家都不容易!
评论 支持 反对

举报

以后多分享一些这样的有价值的帖子啊
评论 支持 反对

举报

受教了啊
评论 支持 反对

举报

以后多分享一些这样的有价值的帖子啊
评论 支持 反对

举报

好东西一定要看看!
评论 支持 反对

举报

论坛有你更精彩!
评论 支持 反对

举报

返回顶部