8篇杂谈入选,语音识别与合成

2019-07-07 02:16栏目:奥门新萄京娱乐场
TAG:

原标题:腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018

前言: AI PM认知系列第三篇,字数:2300 ,速读需4分钟

雷锋网AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。

从早期苹果的Siri,到最近国内的智能音箱大战,越来越多AI语音产品走入了大家的生活。
​近几天我也在思考,相比已有更落地方案的计算机视觉,AI的语音技术在产品应用中的本质是什么?这个思考我也跟一些语音领域的专家探讨过,而其中我个人的理解是:

9 月 2 到 6 日,Interspeech 会议在印度海得拉巴举办,腾讯 AI Lab 首次参加,有 8 篇论文入选,位居国内企业前列。该年度会议由国际语音通信协会 ISCA(International Speech Communication Association)组织,是全球最大的综合性语音信号处理领域的科技盛会。

AI语音技术的本质,通过效率的提升,场景的便捷,重新定义了用户体验。

腾讯 AI Lab 也在业界分享语音方面的研究成果,今年已在多个国际顶级会议和期刊上发表了系列研究成果,涵盖从语音前端处理到后端识别及合成等整个技术流程。比如今年 4 月举办的 IEEE 声学、语音与信号处理国际会议(ICASSP 2018),是由 IEEE 主办、全球最大、最全面的信号处理及其应用方面的顶级学术会议,腾讯 AI Lab 也入选论文 4 篇,介绍了其在多说话人语音识别、神经网络语言模型建模和说话风格合成自适应方面的研究进展。

为什么我这么理解?那我们先来看看语音有哪些天然属性

在研究方面,腾讯 AI Lab 提出了一些新的方法和改进,在语音增强、语音分离、语音识别、语音合成等技术方向都取得了一些不错的进展。在落地应用上,语音识别中心为多个腾讯产品提供技术支持,比如「腾讯听听音箱」、「腾讯极光电视盒子」,并融合内外部合作伙伴的先进技术,在语音控制、语义解析、语音合成(TTS)等方面都达到了业内领先水平。

  • 提升效率:一分钟400字的速度靠打字是无法超越的,所以特定行业,语音的技术可以大大的提升人机的效率。

  • 操作便捷:解放了你的双手,除了一些基本的操作,无需要每个字都操作键盘或点击屏幕了。

  • 学习成本:对于不认字的老人和小孩,可以用语音来进行检索和进行操作,对于不会拼音的人,也可以使用语音识别。

本文将基于智能音箱的基本工作流程介绍腾讯 AI Lab 在语音方面的近期研究进展。

所以,以下AI语音相关的分享,会围绕两个方面:

首先,我们先了解一下音箱语音交互技术链条。

  1. 语音技术:语音识别和语音合成

  2. 语音技术应用和未来思考

图片 1

1. 语音技术:语音识别和语音合成

智能音箱的最典型应用场景是家庭,在这种场景中用户与音箱设备的距离通常比用户在智能手机上使用语音应用的距离远很多,因此会引入较明显的室内混响、回声,音乐、电视等环境噪声,也会出现多说话人同时说话,有较强背景人声的问题。要在这样的场景中获取、增强、分离得到质量较好的语音信号并准确识别是智能音箱达到好的用户体验所要攻克的第一道难关。

1.1 语音识别:ASK

语音识别(Automatic Speech Recognition)是以语音为研究对象,通过语音信号处理和模式识别让计算机自动识别人类口述语言。
简单来说,就是让机器可以听得懂人话。

其中比较核心的部分是语音听写:就是将语音信息转化为文字信息。
中文语音听写的技术原理,如下:

  1. 说出一段话,比如:「产品经理」,机器收到只是一段声波信号。
  2. 进行信号的预处理,如:降噪,消除回音…等。
  3. 特征提取,如:说了几个字,音调是什么…等。
  4. 通过声学模型匹配,输出“音”:chan2,pin3,jing1,li3。(拼音举例)
  5. 通过语言模型处理,最终得到文字:产品经理。

而这里的特征提取,声学模型语言模型在技术实现上,有两种方法:

  • 传统:隐马尔可夫模型(HMM)
  • 端到端:深度神经网络(DNN)

目前语音识别技术主要是通过DNN实现的,特定场景下最高可以达到97%的识别率

麦克风阵列是这一步最常用的解决方案之一,比如腾讯听听就采用了由 6 个麦克风组成的环形阵列,能够很好地捕捉来自各个方位的声音。

1.2语音合成:TTS

语音合成(Text-To-Speech)是计算机将自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。
简单来说,就是机器讲文字朗读出来。

中文的语音合成技术原理,如下:

  1. 先通过规则把一段文字分词,如:我|爱|产品|经理。
  2. 把这段文字进行韵律的处理,标出是发什么音。
  3. 根据语音库的发音,进行单元的拼接。
  4. 最后就可以播放出这段语音了。

目前主要实现是两种方法:

  • 拼接法:把录音的句子切碎成基本单元存储起来,再根据需要拼接起来。
  • 参数法:通过录音提取波形的参数存储起来,早根据参数转化为波形。

拼接法的优点就是更自然,但是缺点是需要大量的录音,和存储。
参数法的优点就是存储小,但是缺点就是不够自然,听起来就是怪怪的机器发音。
另外谷歌发布的****WaveNet是基于语音网络使用生成算法制作而成的,相对于以前的拼接法、参数法,在声音表现力上更具优势。

此外,语音合成的技术主要体现在四个方面

  • 表现力:不同年龄,性别特征以及语调,语速的表现,个性化。
  • 音质:声音的清晰度,无杂音
  • 复杂度:减少音库的体积,降低运算量及系统开销。
  • 自然度:音律规则,间隔停顿。

目前的语音合成技术相对比较成熟,进一步优化的同时,大家的重点都放在了表现力上,以符合更多的场景应用,满足不同人对个性化的需求。

举个例子:前一段时间,我打车时候看到司机师傅使用高德的语音导航,语音合成用的是一个小朋友的声音,我们就聊了起来,司机师傅说他才刚开始拉活,路不熟,他不喜欢郭德纲的声音,话忒多,他用小朋友的声音,一个是语速慢,另外一个是吐字清晰,不会因为听不清楚走错路。
这个就是在不同场景下用户对于表现力的个性化需求,因人而异。

麦克风采集到声音之后,就需要对这些声音进行处理,对多麦克风采集到的声音信号进行处理,得到清晰的人声以便进一步识别。这里涉及的技术包括语音端点检测、回声消除、声源定位和去混响、语音增强等。另外,对于通常处于待机状态的智能音箱,通常都会配备语音唤醒功能。为了保证用户体验,语音唤醒必须要足够灵敏和快速地做出响应,同时尽量减少非唤醒语音误触发引起的误唤醒。

1.3产品应用中涉及的语音相关技术

目前我们用微信语音或者是Siri时,都属于近场的识别,而智能音箱,车载设备,机器人的语音都属于远场识别,远场识别会受到,距离,噪音,混响…等问题,需要有其他的相关技术来配合完成,提高识别率。

麦克风阵列:由一定数量的麦克风组成,用来对声场的空间特性进行采样并处理的系统。用于在会议室、户外、商场等各种复杂环境下,解决噪音、混响、人声干扰、回声等各种问题。
麦克风阵列又分为:2麦克风阵列,4麦克风阵列,6麦克风阵列,6 1麦克风阵列。
随着麦克风数量的增多,拾音的距离噪声抑制声源定位的角度,以及价,都会上升,所如如何选择要贴合实际应用的场景,找到最佳的方案。

比如:猎豹小雅AI音箱,用的就是6 1麦克风阵列,因为要针对360度的3-5米的场景中使用。而很多家电,比如电视机都是贴墙放置的,2麦克风阵列的180度,就足够使用了。
而两者麦克风阵列技术要求和价格相差数倍。所以对于产品落地来讲,在提供解决方案的时候,选择最优的方案。

语音激活检测:在用微信时候,你会点击语音的按钮,来让语音开始识别。而在远场的时候,没有办法进行相关的操作,所以需要判断什么时候有语音,什么时候没有语音。

语音唤醒:通过关键词来唤醒你的语音设备,比如:嘿~Siri,这时候语音识别才开始工作。
语音唤醒难点在于,唤醒的响应时间功耗要低,唤醒的漏报和误报率……等。

经过麦克风阵列前端处理,接下来要做的是识别说话人的身份和理解说话内容,这方面涉及到声纹识别、语音识别和模型自适应等方面的问题。

2.语音技术应用和未来的思考

目前的语音识别技术,相对成熟应用还在近场语音:

而语音产品方向的未来的挑战:

  • 远场语音:智能家居,车载语音…等
  • 语音理解:与机器交互更“自然”的沟通

未来远场语音的场景比想象的更为复杂,虽然语音识别的相关技术在智能音箱的家居场景下表现的还不错,但家居环境毕竟相对安静可控,但是其他的远场语音就没有这么顺利了。

例如:
车载识别,在开车的环境下太多噪音,发动机的声音,打开车窗的风声,车胎声,路面声音,这些噪音都会影响到语音的识别。
而解决的方法,是要在识别之前,消除掉这些噪音,但这样就会产生一个问题,那么多种声音,机器怎么知道要消除哪些?保留哪些?
现在的方法是怎么做的? 扛着个麦克风,去各个车型里面录噪音,然后把各种车,各种场景下的噪音给机器去学习,让机器分辨出哪些声音是要消除的。但不同环境,路面,不同的汽车发出的声音又都不完全一样,有大量的工作和太多不可控的情况。

将来如果想在更多场景,比如酒吧,体育场,就会更复杂,除了环境音,还有更多人说话,比如“鸡尾酒效应”,所以未来的语音之路,挑战会更多。

语音的理解就涉及到另外一个AI技术了“自然语言处理”,目的是与机器沟通时候,它可以更好的理解你的意思,并给出相对的判断或反馈,避免像现在的聊天机器人出现的所答非所问,上句不接下句的情况,而有关自然语言处理,是一个更大的课题,也是AI目前的主要瓶颈之一,会再下一个分享中具体进行讨论。

以上就是我有关AI语音的分享,是AI PM认知系列的第三篇,如果任何的疑问或建议,欢迎随时沟通探讨。

AI PM认知系列的相关阅读:
第一篇:从0开始搭建产品经理的AI认知体系
第二篇:产品经理的AI知识框架:计算机视觉
第三篇:产品经理的AI知识框架:语音识别与合成

作者:兰枫,前腾讯游戏,新浪微博PM,Elex产品总监,连续创业者。

之后,基于对说话内容的理解执行任务操作,并通过语音合成系统合成相应语音来进行回答响应。如何合成高质量、更自然、更有特色的语音也一直是语音领域的一大重点研究方向。

腾讯 AI Lab 的研究范围涵盖了上图中总结的音箱语音交互技术链条的所有 5 个步骤,接下来将依此链条介绍腾讯 AI Lab 近期的语音研究进展。

1)前端

采集到声音之后,首先需要做的是消除噪声和分离人声,并对唤醒词做出快速响应。

在拾音和噪声消除方面,腾讯 AI Lab 的 Voice Processing(简称 AIVP)解决方案集成了语音检测、声源测向、麦克风阵列波束形成、定向拾音、噪声抑制、混响消除、回声消除、自动增益等多种远场语音处理模块,能有效地为后续过程提供增强过的清晰语音。发表于 Symmetry 的论文《一种用于块稀疏系统的改进型集合-元素比例自适应算法(An Improved Set-membership Proportionate Adaptive Algorithm For A Block-sparse System)》是在回声消除方面的研究。

图片 2

远场语音处理的各个模块

在语音唤醒方面,腾讯 AI Lab 的 Interspeech 2018 研究《基于文本相关语音增强的小型高鲁棒性的关键词检测(Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection)》针对语音唤醒的误唤醒、噪声环境中唤醒、快语速唤醒和儿童唤醒等问题提出了一种新的语音唤醒模型——使用 LSTM RNN 的文本相关语音增强(TDSE)技术,能显著提升关键词检测的质量,并且在有噪声环境下也表现突出,同时还能显著降低前端和关键词检测模块的功耗需求。

图片 3

基于文本相关语音增强的关键词检测架构

2)声纹识别

声纹识别是指根据说话人的声波特性进行身份辨识。这种技术有非常广泛的应用范围,比如根据不同家庭用户的偏好定制个性化的应用组合。声纹系统还可用于判断新用户的性别和年龄信息,以便在之后的互动中根据用户属性进行相关推荐。

声纹识别也存在一些有待攻克的挑战。在技术上存在信道失配、环境噪声、短语音、远场等难题,在应用上还有录音冒认、兼容能力、交互设计等挑战。声纹模型还应当具备兼容确认和辨别功能,支持隐式更新和隐式注册,以便随用户使用时间的增长而逐步提升性能。

图片 4

支持隐式注册的声纹模型的性能随用户使用时长增长而提升

腾讯 AI Lab 除了应用已实现的经典声纹识别算法外(GMM-UBM、GMM/Ivector、DNN/Ivector、GSV),也在探索和开发基于 DNN embedding 的新方法,且在短语音方面已经实现了优于主流方法的识别效果。腾讯 AI Lab 也在进行多系统融合的开发工作——通过合理布局全局框架,使具有较好互补性的声纹算法协同工作以实现更精准的识别。相关部分核心自研算法及系统性能已经在语音顶级期刊上发表。

其中,被 Interspeech 2018 接收的论文《基于深度区分特征的变时长说话人确认(Deep Discriminative Embeddings for Duration Robust Speaker Verification)》提出了一种基于 Inception-ResNet 的声纹识别系统框架,可学习更加鲁棒且更具有区分性的嵌入特征。

图片 5

同样入选 Interspeech 2018 的论文《从单通道混合语音中还原目标说话人的深度提取网络(Deep Extractor Network for Target Speaker Recovery From Single Channel Speech Mixtures)》提出了一种深度提取网络(如下图所示),可在规范的高维嵌入空间中通过嵌入式特征计算为目标说话人创建一个锚点,并将对应于目标说话人的时间频率点提取出来。

实验结果表明,给定某一说话人一段非常短的语音,如给定该说话人的唤醒词语音(通常 1S 左右),所提出的模型就可以有效地从后续混合语音中高质量地分离恢复出该目标说话人的语音,其分离性能优于多种基线模型。同时,研究者还证明它可以很好地泛化到一个以上干扰说话人的情况。

图片 6

深度提取网络示意图

3)语音识别

语音识别技术已经经历过长足的发展,现在已大体能应对人们的日常使用场景了,但在噪声环境、多说话人场景、「鸡尾酒会问题」、多语言混杂等方面仍还存在一些有待解决的难题。

腾讯 AI Lab 的语音识别解决方案是结合了说话人特征的个性化识别模型,能够为每位用户提取并保存自己个性化声学信息特征。随着用户数据积累,个性化特征会自动更新,用户识别准确率可获得显著提升。

版权声明:本文由奥门新萄京娱乐场发布于奥门新萄京娱乐场,转载请注明出处:8篇杂谈入选,语音识别与合成