语音交互“百家争鸣”，蔚来、长城、宝马三方“谁主春秋”？

2021/4/15 智能相对论综合报道阅读：24181

『导读』目前，全球科技巨头纷纷布局智能汽车行业，车载语音交互赛道也随之产生剧烈变化。

前几日，微软官宣了一项重量级收购，花费160亿美元收购Nuance，这也是微软继260亿收购Linkedin之后的第二大收购。Nuance是美国最大语音识别公司，被称为美国版“科大讯飞”。

除了Nuance本身在医疗领域的能力，其分拆出去并独立上市后的车载语音部门Cerence也是本次收购的动力之一。这不禁让人联想，未来微软会在车载语音上有所动作。或许，这是微软在汽车行业的一次隐秘“落子”。

目前，全球科技巨头纷纷布局智能汽车行业，车载语音交互赛道也随之产生剧烈变化。

从触碰到语音，掀起一场供应商交互纷争

随着智能电动车崛起，座舱更加智能，更多车辆搭载拥有大量功能的车机系统和不同级别的驾驶辅助，造成座舱内信息大爆炸。面对海量的信息，智能汽车的中控大屏越来越大。

但细想，这些屏幕的内容集中高且有多个层级，输出信息是高效的，可做信息输入显然是低效的。而语音交互，理论上指令可以有无数条，可以实现一步直达任何功能。正因如此，语音交互的价值再次浮现。

高工智能汽车研究院监测数据显示，2020年国内新车（合资+自主品牌）前装搭载语音识别及交互功能上险量为1206.4万辆，同比增长17.88%。在搭载率方面，则从2019年的49.82%提升至63.25%，车载语音已成为汽车继中控屏外的第二交互手段。

实际上，近两年语音交互迎来新一轮发展，不仅因为其较屏幕交互有着独特优势，更是由于可以和“智能”做到深度融合，升级为“语音助手”。

智能汽车接入的生态服务资源广泛，司机和乘客使用服务会变得高频，语音交互系统可以从中获取海量的数据。而数据来源于司乘日常的对话，相对丰富详细，系统通过深度学习培养后也就越“智能”。

这与屏幕交互很大的不同在于，数据必然会加速汽车交互系统的更新迭代。而交互系统使用体验的提升，会使得司乘进一步提高使用频率，产生新的数据。两者之间相辅相成，互相促进。

另一个不同在于，语音助手可以更好地同内容生态连接，把移动互联网的产品和服务搬到汽车上，让自身商业体系的优势得以凸显。这也是除了体验外，汽车厂商着眼语音交互的关键动力。

但随着产品不断推进，车载语音供应商之间的竞争愈发白热化。在技术链路上，语音交互大致包括声学前端，语音识别（ASR）、自然语言处理（NLP）等。当下竞争不仅集中在自然语言处理，而且衍生到背后数据和计算能力的比拼。

2020年数据显示，排名前八的供应商市场份额超过99%。Cerence和科大讯飞继续占据市场份额的前两位，合计份额超过70%，不过数字已经开始出现下滑迹象；百度排名第三，份额为7.24%。

这一块目前的问题是，在一些高频对话的定义上，整体效果较好，但在一些低频的对话上，受限于语料、数据量不足，体验上不尽人意。如何利用AI更好地推进自然语言处理，对公司的技术研发实力和积累提出高要求。

也因如此，该领域具备天然的竞争壁垒，先发优势和规模效应尤为明显。这是BAT等科技巨头难以实现快速渗透，市占率无法提升的主要原因。

而Cerence目前是全球唯一专注这个方向的企业，有着超过20年技术积累，兼顾科技巨头以及细分领域玩家两方的优势。一方面，早有着科技巨头从生态上集成第三方应用协作的能力，利用认知仲裁技术实现了第三方内容在系统上共存，简化了助手执行任务的流程。

另一方面，具备科大讯飞等传统玩家丰富的集成经验和规模优势，合作全球主流OEMs和Tier1供应商。这不仅有助于加强成本优势，同时帮助自身积累丰富的语言数据，目前Cerence和科大讯飞已建立数十种语言的语音数据库。

汽车厂商不同的实现路径，带来不同的想象空间

汽车进入数字化和自动驾驶新时代，电子架构从分布式架构到域集中架构，再到跨域融合，汽车厂商开始掌握更多的主导权。随之，作为需求侧的厂商同语音供应商合作时，不再单一地走通用方案，而转向深入理解应用场景、联合深度定制。

在“智能相对论”看来，未来汽车厂商的语音助手前装方案将主要呈现两种实现路径：

一方面，一部分将倾向于打造自研的交互平台，并融合多家供应商如科大讯飞和思必驰的优势技术支持。

自研这种做法劣势在于成本问题，改变核心领域的交互逻辑并将语义处理能力建立起来，需要不断地研发投入。为了打造强大的智能AI服务于系统，大量的数据沉淀也会拉长系统的更新周期。

而部分厂商选择“偏向虎山行”，原因简单概括就是“闭环”二字。

相比向供应商采购，自研平台进一步符合车辆的特性，有着相对自由的权限以及更好的适配。同时，其迭代升级会更为迅速，响应速度也更快。若要“全双工”、“连续对话”、“免唤醒”、“全场景”等技术能力更好地实现，自研就显得尤为重要。

部分厂商会选择这条实现路径，也是为了更好抓住行业中长期的趋势。因为车的量产周期很长，如果厂商不能“独具慧眼”，未来车上搭载的语音方案就是落后的，和同时期的产品比就丢失了部分竞争力。

以蔚来、理想、小鹏为代表的造车新势力是最典型的例子，它们仍需借助语音供应商，但自研比例在逐渐提高。

蔚来有着NOMI Mate小机器人的车载AI系统，如今其已升级至2.0版本，解锁了更多的功能和表情显示。蔚来较早选择车载语音“拟人化”这个思路独树一帜，但的确走出了预想的效果，引发了后续多家效仿。通过“拟人化”，语音被抽象为人物形象的情感表达，反过来加深用户对品牌的印象。

小鹏的“玩法”似乎“直接且硬核”。去年10月，其发布了自己的全场景语音，包括多轮对话、语义打断、双音区锁定和可见即可说4个功能。在技术层面，小鹏自主搭建了一套语音框架，以便自主定义语音的全流程体验，不受限于供应商的开放能力范围限制。但必须承认，这需要长期投入人力物力财力。

另一方面，其他品牌则更多倾向于直接或间接选择提供整体解决方案的供应商，比如Cerence、科大讯飞、BAT等供应商。

一般来说，整体解决方案仅小量自定义即可交付，特别适合车型品类和数量都非常丰富的汽车品牌，性价比相对更高。

当下，吉利汽车和长城汽车等我国自主品牌主要是走这条实现路径。以长城汽车为例，去年4月，其战略合作伙伴仙豆智能选定Cerence ARK来提供数字助理方案。与全球领先的供应商建立合作后，自主品牌的语音交互并不逊色于造车新势力。

在这场语音交互“智能化”趋势下，传统豪华品牌如奔驰、奥迪、宝马反而不是话语权的掌管者，和国内消费者对它们根深蒂固的认同感形成强烈反差。

传统豪华品牌在汽车数字化上相对保守，往往选择某一个车系的一款车型尝试升级。不选择自研能够将开发周期大幅缩短，加上自身的汽车量产能力，可以快速将产品向市场铺开。

2020款奥迪A4L语音系统由出门问问提供，同时搭载了Cerence和天猫精灵的相关能力。整体体验比其他豪华品牌要好，但远算不上第一梯队。

Cerence和出门问问分别为这款车提供了一套ASR和NLU能力，两者算是并行关系。所以用户输入任何一个指令，两个通道都要跑一遍，最后统一口径实行指令，流畅度不佳。

当下，传统豪华品牌的智能化升级迫在眉睫，车内人机交互的体验，已然成为各大厂商竞争的焦点。新势力搅动市场，自主品牌纷纷发力，智能汽车市场的竞争如火如荼。

下一代交互盯住“主动多模态”，仍需迈过“鸡肋”这道坎

激烈的竞争一定程度上推动着语音交互产品提高用户体验，也使得愈多用户长期接受这种交互方式。智能电动汽车时代，“软件定义汽车”这句话深入人心，但“语音”远远不能定义交互。

在整车底盘之上，还有摄像头、HUD、玻璃、车灯（氛围灯、外饰灯）等有望成为未来座舱端的交互产品。而语音交互能够承载海量数据、带来驾驶更高安全性等等，更会是交互产品生态的中心。

所以“智能相对论”认为，以语音交互为中心的“主动多模态交互”会是未来的方向。

不同功能的摄像头好比多双“眼睛”，能够进行手势识别、情绪识别，发现你的需求。这种情况下，摄像头带来的是交互系统“主动”提供服务，与其他地交互方式截然相反。当语音这种“被动式”和视觉的“主动式”融合，整个交互产品生态会为用户提供更丰富的服务和信息。

例如，将车辆、行人、车道、标志识别融合导航信息进行实时渲染，提供行车预警及导航指引等系列功能，并通过HUD投影至挡风玻璃上，带来更直观的导航驾驶体验。

与此同时，通过视线追踪、手势交互等操作对舱内座椅、灯光、空调、音乐等所有功能进行控制，从而在保障安全驾驶的情况下让人机交互更易用，并配合人脸识别身份认证技术，提供驾驶员身份检测以支持个性化功能实现。

愿景是美好的，但现实是，当下视觉交互落地的案例屈指可数。宝马的手势识别在2015年率先登陆宝马7系，2019年下放到3系，通过摄像头主要识别确认、调节音量大小、接听和挂断电话。识别率很高，但屏幕系统流畅程度和反应非常流畅，手势识别反而显得鸡肋。

如何平衡好语音、视觉等多模态之间的交互逻辑，是现阶段各家一直在探索的问题。

体验参差不急，导致整个产品生态的价值没有真正凸显。最重要的是语音和视觉没有从根本上融合，仍然是单打独斗的状态。

实现功能的整合并非易事，尤其是从被动指令到主动提供服务，需要成熟的AI技术的支撑。如果这种细微的服务能做好，体验会有大幅提升，用户粘性会随之提高。

若抛开技术先看交互的目的，是为了提供更多的服务。而服务背后，则是广泛的内容生态，社交、地图、音乐等等。因此，如果能够为用户提供更多的生态内容服务，交互产品生态的数据逐渐积累，人机交互也将更加智能。而这，必然需要多方的共同努力。

来源：智能相对论

关闭

赞赏是一种态度