解析全球智能语音巨头Nuance的中国本土探索和声龙驾驶

文/车云

来源:汽车互联网

今天汽车互联网为大家带来一篇关于全球智能语音巨头Nuance的深度文章,也许讲到Nuance大家觉得很陌生。汽车互联网先给大家简单介绍一下Nuance在江湖中的地位。

Nuance简介

Nuance公司(Nuance Communications, Inc. (NASDAQ: NUAN)) 是最大的专门从事语音识别软件、图像处理软件及输入法软件研发、销售的公司。目前世界上最先进的电脑语音识别软件Naturally Speaking就出自于Nuance公司。用户对着麦克风说话,屏幕上就会显示出说话的内容。T9智能文字输入法作为旗舰产品,最大优势支持超过70种语言,超过30亿部移动设备内置T9输入法。已成为业内认同的标准输入法,被众多OEM厂商内置,包括诺基亚、索爱、三星、LG、夏普、海尔、华为等等。T9全球市场占有率超70%。

3月15日,Nuance在上海举办了第4届“Nuance中国汽车论坛”,探讨语音助手在或将是继智能手机后下一个重要移动端—“汽车”上的应用现状与前景,并展示了其车载语音助手产品:Dragon Drive(声龙驾驶)。

期间,Nuance高层,包括集团副总裁及大中华区总裁蒯文瑞先生、车载业务部高级副总裁Arnd Weil以及研究部副总裁吴建雄博士,接受了媒体专访。在他们眼中,Nuance在汽车领域的核心竞争力在哪儿?

▲Nuance高层正在做相关背景介绍(左起依次为:吴建雄、Arnd Weil、蒯文瑞)

蒯文瑞:人工智能是Nuance的老本行

提到人工智能技术,我们首先会想到自然语言处理和图像识别,前者包括语音识别、机器翻译、自动回答问题等,而Nuance在1994年成立之初所做的业务就是关于语音识别的。

提到智能手机语音助手,我们首先会想到苹果公司的Siri和谷歌公司的Google Now。鲜为人知的是,Siri其实与Nuance颇有渊源——两者都脱胎于斯坦福大学国际研究院(Stanford Research Institute International,SRI International)。Nuance于1994年脱离SRI语音技术与研究实验室(Speech Technology and Research Laboratory,STAR Lab)单独成立公司,并于2000年4月在纳斯达克上市;Siri于2007年被SRI商业化董事会允许寻找外部资金,并于2010年4月被乔布斯收购,这是他去世前为苹果公司做的最后一个重要决定。

细心观察后可发现,Google在开拓新技术领域时的行事风格一向是把该领域全世界最牛的专家请到Google来,并让其全权负责。例如,在2013年Google让基因泰克公司的CEO Arthur Levinson博士来负责旗下的生物公司Calico,在2005年将世界著名的机器翻译专家Franz Och博士从南加州大学请来负责开发Google的机器翻译系统,而Google在2004年开发语音识别系统的时候,请到的便是Nuance的创始人Michael Cohen博士。

目前,Nuance是全球最大的独立语音识别公司,拥有最多的专利数量和最大的市场份额。仅就汽车产业而言,每年全球有4000万台汽车(约50%的全球汽车产能)和2000万台导航系统会使用Nuance的技术。

针对中国市场目前的表现,蒯文瑞表示:

2016年,Nuance中国区进入爆发性成长。

主要基于以下三方面的原因:

在研发方面大量投入,特别是在本地研发;在资源方面的大量投入,即由中国团队针对中国市场为中国客户定制服务;在市场方面与合作伙伴的深入合作,包括与品牌客户;

除了在上海与北京的研发中心外,进一步在成都设立了新的研发中心,目前已经有60位工程师,而在2018年之前将有200位工程师。

吴建雄:机器助手的三个层次

回顾人工智能60多年的发展历史,我们可以发现,正是在语音识别研究上的技术路线转变带来了整个人工智能领域的重大突破。

类似于莱特兄弟是通过研究空气动力学而不是模仿鸟类扇翅膀找到了使飞机获得升力的方法,正在做学术休假的康奈尔大学教授弗里德里克-贾里尼克(Frederick Jelinek)和他领导的IBM华生实验室(T. J. Watson Labs)在1972年也找到了使计算机获得智能的新方法,即基于数学模型和统计的方法。

采用基于统计的方法,IBM将当时的语音识别率从70%提升到了90%,同时语音识别的规模从几百单词上升到两万单词,使语音识别有了从实验室走向实际应用的可能。在此后的1988年,IBM的彼得-布朗(Peter Brown)等人提出了基于统计的机器翻译方法。随着可用于训练的数据的不断积累, 2005年Google用该方法做出了当时世界上最好的机器翻译系统。

吴建雄博士自1986年开始研究语音识别技术,并于1999年加入Nuance公司,目前领导着近250人的研究团队。他用了一个非常形象的类比,描绘了机器助手所能实现的功能。在他看来,参照现实中的人类助手,机器助手可以分为三个层次:

最基本的层次是打字员:他可以将你说的话准确地记录下来,这样你就不需要将相同的话向多人重复,助手会把话中布置的任务交给相应的人去做;第二个层次是办公室文员:文员与打字员的区别是,文员可以帮助你去完成一个具体的任务。例如,你想在周末去餐厅吃饭,文员会通过查询到包括餐厅地点及驾车路线、停车场位置及是否有空位、能否订到位置的信息等来完成该任务;最高层次是秘书:秘书与文员的区别是,秘书能够领会领导的意思,即很多事情领导即便不说,秘书也能心领神会,将其完成。

就这三个层次目前的实现情况,吴建雄进一步解释道:

“就Nuance的技术而言,在打字员层次上的功能已经能做的非常好了。目前正在解决的是,如何让机器助手自动完成一个任务。其难点在于,有些时候,人并不是把任务中的所有地要求细节都说出来,需要通过多次人机对话,以提问的方式来逐步获取缺失的信息。至于要让机器助手领会人的意思,还需要积累更多有关个人习惯的数据,通过机器学习的方式来集成到机器助手系统内。”

关于Nuance公司在人工智能领域的发展策略,吴博士表示:

“主要从4个方面入手:在核心技术上不断投入,专注于特定领域(如汽车),按汽车厂商的实际需求定制端对端的解决方案(Deliver end-to-end customizable system to OEM),以及将中国人才与全球人才联合起来一起进行技术攻关。最重要的一点是,Nuance公司作为一家技术公司,需要在核心技术上要保证领先地位。”

其中,吴博士所提到的Nuance的核心技术主要包括以下4方面:

Smart Interaction(智能交互技术):包括信号获取、语音识别、自然语言理解、自然语言生成等;Personalization(个性化技术):好的助手需要知道主人的个人习惯,同样的系统给同时给A和B用并不合适,因为双方的习惯不一样;Contextualization(理解上下文的技术):在不同的语境下,相同的词汇所代表的意思是不一样的,机器助手需要能做出准确判断;Knowledge(运用知识的技术):针对不同的场景,机器助手需要懂得获取与完成任务相关的信息和常识,并加以应用。

市场策略:只做企业级市场

Nuance目前的产品和服务只针对企业级市场(B2B)而不关注消费级市场(B2C),合作伙伴包括宝马汽车、上汽、三星、华为等。

在解释这种选择时,蒯文瑞表示,

Nuance的市场策略是‘合作伙伴的故事就是Nuance的故事,合作伙伴的成功就是Nuance的成功。

在未来,每个企业都会关注人工智能、大数据、人机交互等方面的技术升级,不然就会丧失竞争优势。而Nuance的角色定位是将自身的技术集成到企业开发的新产品和服务中,而不是针对消费级市场自己独立设计产品。

就汽车领域而言,中国第一款互联网汽车荣威RX5便使用了Nuance的技术,该车拥有的会话型语音界面集成了声龙驾驶本地嵌入及云端混合式语音识别和基于深度神经网络的自然语言理解技术,可保证在没有4G网络时依旧能实现基本功能,并通过云端收集用户的使用数据用于未来对系统的迭代。

使用唤醒词便可开始与声龙系统进行便捷的语音交互。只需对荣威RX5说“你好,斑马!”

(注:荣威RX5所用车载操作系统由斑马网络技术公司开发)便可用语音激活系统,并且在系统说话时,驾驶员可以随时打断更正信息。此外,驾驶员使用语音可以方便快速地进行拨打电话、搜索流媒体或本地音乐、查询天气信息,只需说出兴趣点(Point of Interest,POI)

类别或目的地名称便可进行兴趣点搜索。由此,声龙驾驶系统可最大限度地使驾驶员保持驾驶专注度的同时,完成与驾驶相关的任务。

小结:语音或是人机交互的未来

回顾人类的发展史,在近几百万年的演化过程中,人与人之间的通信方式一直是语音,传承信息的方式是口口相传。只是由于后来需要记载的信息越来越多,只用语音难以全面覆盖,所以才发明了文字和书写。但不可否认的是,语音对话依旧是人与人之间最自然的交流方式。

前文中提到,乔布斯去世之前为苹果公司做的最后一个决定是收购Siri,因为他认为这将是人机交互方式的一次重要转换。在Siri被收购的4年后,谷歌公司推出了类似的虚拟助手产品Google Now,谷歌Knowledge团队负责人Amit Singhal认为“它将终结我们熟悉的搜索”。因为它是通过对话的方式来获取和交流新信息,而不是人们日常所做的在搜索框中进行静态搜索。

所以,当各类机器设备像钢铁侠Tony Stark的智能管家贾维斯意义具有高度智能的时候,人类与之交流最自然的方式应该仍然是语音,特别是在无法安装触屏或键盘的场景中。

只是,目前尚需时间来唤起人类固有的使用习惯。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: