阿里云初敏:AI风口之上语音交互正迎来窗口期

Mark wiens

发布时间:2023-02-11

阿里云初敏:AI风口之上语音交互正迎来窗口期

  2016 年毫无疑问是人工智能再次站在风口之上的一年,不管从业者们多么不愿意承认这一点,但一个不为人为意志所转移的事实就是:这个行业正在出现泡沫。究其原因,更多的,还是因为作为一个专有名词,其概念意义远远大于实际意义。这也导致众多标榜「人工智能」的公司或产品,不过是一种「挂羊头卖狗肉」的举动。

  当下所谓人工智能,更多的局限在机器学习算法领域的狭义人工智能,主要围绕在语音、图像等领域。这几年来,在深度学习的帮助下,语音识别领域取得巨大进步和突破,甚至已经超过了人类识别。下图是投资人 在 2016 年 12 月提供的一个数字:

  而在 2017 年第一期《经济学人》杂志中,这个老牌经济杂志将语音技术作为新一期的封面并配以大篇幅的报道,封面的文字则是:Now,We Are Talking。

  语音行业的快速发展也让阿里云 iDST 技术总监初敏博士深有感触。作为在该领域深耕多年的研究者和从业者,初敏博士敏锐注意到语音给整个互联网带来的巨大影响。其实早在去年 11 月的一次演讲中,初敏博士就表示,这次行业发展的势头和之前不太一样,她的原话是:「这次好像真的是到风口上了。」

  正是在这样的大背景下,我们和初敏博士详细聊了聊语音,尤其是语音交互的技术、产业和生态,从中也勾勒出一个摆脱所谓「移动互联网下半场」的路线图:不管是巨头还是创业者,只有站在语音技术发展的前沿,结合具体的业务场景,将技术与应用结合起来,才有可能开拓新的市场。

  某种意义上,「语音」、「人工智能」这两个词汇无法让公众产生多大的感知。但和人工智能相对没有学术概念的词相比,语音其实是有明确意义的。初敏介绍说,传统定义中,语音主要指语音识别、语音合成、声纹识别等。

  这几年来,语音的概念开始局限在某些特定领域,比如在很多物联网设备上的语音入口、智能手机上的语音助手等等。这些特定领域在初敏看来,可以简单理解为「狭义语音技术」,包括回声消除、语音唤醒、麦克风阵列拾音、远场识别等。

  至于当下以交互的角度谈语音技术,则更像是一种「广义语音技术」的概念,既有语音和文字的互相转换,也涵盖了自然语言理解、对话管理的范畴。初敏博士特别强调了一点:数据服务。「(这是)非常重要但还没有被充分重视的一层:数据服务。语音交互的主要目的是获取信息和完成任务。这背后需要跟大量已有或者将会出现的数据服务打通。」

  另一份来自 Gartner 的展现了全球联网设备的规模:2020年,全球联网设备数量将达260 亿台,市场规模将达 1.9 万亿美元。如此海量的联网设备之间需要快速建立连接,语音成为最为方便的一种方式。下图是「互联网女皇」Mary Meeker 2016 年的一张预测图:

  Evans 发出如此感叹的缘由就在于,尽管今年亚马逊 Alexa(亚马逊的语音技术) 并没有参展,但由于Alexa 与众多智能硬件公司合作,从而也被频繁提及。 硅谷资深博客 Ben Thompson 更是直言:Alexa 就是亚马逊的操作系统,这个操作系统的唯一交互方式就是语音。

  初敏博士的答案是两个字:生态。「这个事情靠一家企业(即便是巨无霸)单打独斗是很难获得巨大成功的,一定需要把生态建起来。大家都在赛跑。」

  这就不难理解为何亚马逊会在 CES 上频繁与各个智能设备厂商「眉目传情」,某种意义上,「智能设备不能简单看成硬件市场,更应该看成云的入口,是把人跟云上服务快速连接起来的通道。」

  在生态层面,亚马逊、阿里巴巴这样的大公司优势明显。就目前来看,语音交互在整个阿里巴巴硬件体系内的重要性越来越高,比如在 YunOS 系统中,整个语音交互成为一个重要的入口,而 YunOS 早已具备了支持多端的能力,可以在手机、电视、互联网汽车、音箱以及机器人上使用。这也意味着,围绕 YunOS,尤其是语音交互,阿里巴巴整个生态体系正在形成。

  如上文所言,过去几年,语音识别的精确率大幅提升。这也让公众产生了某种误解,意味哪家公司的识别率越高就越好。而在初敏看来,「语音技术如果要变成一个产业,最重要的是 E2E (不同企业之间的产品)打通,从收音,到识别、到理解、到交互、再到服务选择、结果反馈,以及持续交流等,每一个环节都要流畅,用户用起来才舒服,才会愿意持续使用。」

  这也是初敏一直所强调的一点,随着语音识别准确度未来越来越高,公众也不再关注所谓的识别率高低,而是更在意其背后的技术、服务质量,或者说用户使用场景,而对企业来说,首先要突破自然语言理解和交互的技术瓶颈,在此基础上再谋求服务质量的提升。

  当下,语音行业云集巨头和大量创业者们。但对很多创业公司来说,技术突破或许难度不大,但对用户场景的理解以及围绕产品的生态建设则非常困难,这也就不难解释为何目前整个语音行业成为巨头——亚马逊、阿里云争夺的主战场。

  在初敏博士看来,语音交互已经具备了相对多的应用场景,比如汽车,司机驾车过程中,语音交互是一种天然而又高效的交互模式;再比如智能家居,客厅里的音箱、电视,卧室里空调、厨房里的冰箱等等。不同的场景,用户的需求也有不同,汽车需要的是地图、导航、音乐,客厅需要的视频和音乐,厨房则需要超市和电商服务。

  进一步来看,B 端的场景里,用语音操作工业机器人或者将语音交互用于服务型机器人(虚拟和实体)当中,这里的想象力也非常非常大。比如在阿里电商平台上的「阿里小蜜」,每天应对淘宝、天猫等交易平台上百万级服务量的情况,永远在线、全年无休,平均响应时间不到一秒,智能解决率也已超90%。这也意味着,在完全无需人工介入的情况下,通过语义分析和联想计算,「阿里小蜜」能向用户提供有效、对口的服务解决方案。

  不管所谓「移动互联网下半场」的论调是否有依据,有个事实已经很明显了,自 2007 年开始的移动互联网行业已经步入一个全新的阶段,这其中最大的变化就是入口的变化。从曾经的搜索到后来的 App 再到如今的社交消息应用,而在用户交互层面,从键盘到触摸屏再到语音。在海量设备被联网后,移动互联网、物联网也将逐步融合、进化。

  在谈及对 2017 年的预测时,初敏博士提出了两点:其一,自然语言理解技术的研发进展或许将过滤掉很大一批从业者;其二,随着智能语音交互设备出货量的增加,一个关键的窗口期即将到来。返回搜狐,查看更多

免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186