语音识别的未来之路

2018-01-10   来源:未知   点击:
语音识别为何现在才被认为是未来趋势,它会给我们带来什么呢?
2016年6月2日,有“互联网女皇”之称的玛丽·米克尔在美国Code大会上第21次公布了年度《互联网趋势》报告,阐述了2016年最为重要的全球互联网现象、判断以及发展趋势。
 
报告称,在技术终端和平台方面,持续近十年的以智能手机为核心的移动互联网模式正逐步增速放缓,而在家居、车载和移动场景中,新的以语音为核心的交互模式渐成风口,巨头和创新者纷纷涌入。
 
这份报告的依据是亚马逊的智能音响Echo的被热捧,这款在2014年底推出的基于语音识别的音响再次引发了业内的关注,甚至被喻为未来智能家居的真正入口。
 
语音识别
 
语音识别的历史其实已经很久,在PC时代,IBM就搞过语音输入。在智能手机流行之前,金立的语音王就可以实现一些语音控制的功能。
 
而苹果的Siri、谷歌的Google Now和微软的Cortana,都比Echo要早,国内百度也很早就在研发语音识别。
 
那么语音识别为何现在才被认为是未来趋势,它会给我们带来什么呢?
 
一、 从Echo说起
 
实际上,Amazon在Echo上的语音技术在2011年就已经起步,其先是收购语音识别公司Yap。
 
Yap成立于2006年,主要提供语音转换文本的服务。
 
2012年,Amazon又收购了语音技术公司Evi,继续加强语音识别在商品搜索方面的应用,不得不提的是,Evi这家公司也曾经应用过Nuance的语音识别技术。
 
2013 年,Amazon继续收购语音技术公司Ivona Software,Ivona是一家波兰公司,主要做文本语音转换,其技术已被应用在Kindle Fire的文本至语音转换功能、语音命令和Explore by Touch应用之中, Echo也是利用了这项技术。
 
而亚马逊自主开发。主要包括够在10英尺甚至更远的地方分辩声音的麦克风阵列技术。
 
由此不难看出,亚马逊很早就已经通过并购与自研的方式进入到语音识别领域,只是此前相当低调而已,更为关键的是,其拥有自己语音识别的核心技术——采用了非线性排列的远程麦克风阵列(7个麦克风)。这使得相比Siri、Google Now、Cortana这些存在于手机的语音助手,Echo最大的优势还在于它超强的听力。
 
而比技术更重要的是应用,苹果的Siri、谷歌的Google Now基本都是面向智能手机这类移动设备,微软的Cortana除了智能手机,还面向传统PC。而这些设备都有其他输入方式,语音并非是有优势的解决方案。语音指令不如点一下鼠标或者动一下手指,输入速度也必比得上键盘。
 
而亚马逊则是通过音响这种取巧的方式来应用,对音响来说,语音控制比拿起遥控器或者手机更方便一些,其实智能家居都是语音控制更方便。
 
好的途径带来更好的市场,Intelligence Research Partners预计,亚马逊已销售出了大约300万台Echo,其中在今年的第一季度就销售了100万台。
 
在技术上,亚马逊并不是很出类拔萃,但是他给语音识别指令遭到了一个好的途径。
 
二,语音识别的真正突破
 
其实,玛丽·米克尔说的东西并不是那么有权威,而凑巧的是,语音识别在最近两年确实取得了很大的突破。
 
前不久,麻省理工学院(MIT)主办的知名科技期刊《麻省理工科技评论》(MIT Technology Review),评选出了“2016年十大突破技术”。《麻省理工科技评论》称,在过去的一年里,这十项技术均已到达一个里程碑式的阶段或即将到达这一阶段。
 
而语音识别的突破就在其中的第三项,语音接口(Conversational Interfaces),该技术现已趋于成熟。通过该技术,可将语音识别和自然语言理解相结合,为全球互联网市场创造切实可用的语音接口。
 
百度、谷歌、苹果、Nuance通信公司、Facebook等公司是这一领域的大玩家。
 
这里有一个问题,就是语音识别和语义识别。单纯的语音识别这个东西技术已经很古老,PC时代IBM的语音输入已经20年了,苹果的Siri根源可以追到更古老的军方监听项目。
 
而真正的难度在于语义识别,把语音高正确率的转化成文字还不够,而是要听懂人类在说什么,要表达什么意图,这个才是皇冠上的宝石。
 
而幸运的是,随着近年来人类科技的进步,这方面已经有了很大的突破。
 
突破首先来自于硬件的进步,这几年计算机飞速发展,特别是GPU通用计算发展,人类有了强大的计算能力。一些过去不可能实用的人工智能算法成为可能。
 
人工智能中神经网络与深度学习都取得了很大进步,特别是深度学习算法的应用,大幅度提升了语音识别的正确率,并且提供了语义识别的可能。
 
这方面,国内的百度走得很远,百度语音识别可以做到安静环境下97%准确率,领先正常人的听力。如今,百度通过CNN(卷积神经网络)与LSTM(长短时记忆模型)的混合建模,连接时序分类(CTC)训练已经做到了真实环境,日常非标准语言的精确识别。
 
前几天百度联盟会议上,李彦宏展示了嘈杂环境下百度语音识别对各地方言的识别。
 
这是建立在深度学习对大量语音资料自动学习基础之上的,以前语音识别需要人来控制,现在机器可以自我学习。而且可以理解人的意思。这是革命性的突破。
 
百度甚至在上海的KFC放了一个机器人,和人自由对话,点餐。这不是编程对固定指令的处理,而是人工智能直接与人对话,理解人的语言。
 
这是真正的突破。
 
三、 语音识别的未来
 
正确识别语音,完成输入和控制,这个东西有一定前途,但是限于其他模式不方便的时候,譬如智能家居,汽车上面,距离太远不便动手,或者手在忙着的时候。
 
而语义理解,人机对话则是革命性的东西。
 
这个东西集合上简单的机器控制,意味着人类大部分服务业与窗口行业都可以被替代。
 
未来,KFC可能只要现在10%的人手,复杂把原料按照规定投进机器就可以了。点餐加工送餐收款全部由人工智能完成。
 
一家超市,除了保安需要人类以外,可以用无人仓库加人工智能收银员。
 
语音识别的未来将我们的生活将发生颠覆性的改变。而把握住这个机会的企业,也将成为下一个时代的弄潮儿。
推荐阅读