『导读』理想汽车自动驾驶技术路线的思考
自动特斯拉不举办AI DAY以后,中国智能驾驶行业的对于未来的技术路线,似乎失去了方向。大家争先恐后爱说的“时髦话”,也止步于“端到端”了。出人意料地,“好久没出来的”李想,给出了一个自动驾驶技术路线的新思考。
在2024年6月8日举行的2024中国汽车重庆论坛上,理想汽车董事长兼CEO李想发表了关于自动驾驶技术路线的思考。“端到端+VLM(视觉语言模型)+生成式的验证系统,也会是未来整个物理世界机器人最重要技术架构和技术体系。”李想认为这一技术路线“法力”足够强大,基于它,“最早在今年年底,最晚在明年上半年,真正有监督的L3自动驾驶就就可以批量向用户交付了,而不是做实验了。”而且,“L4级别无监督的自动驾驶在三年内一定能够实现。”
很激动人心的展望。
先不说理想汽车这一技术路线是否“画大饼”,李想还说,“最近本月还有下月还有几个关键AI方面的技术论坛里,我们技术研究的同事也会向整个行业来分享我们对这方面的研究。”尽管近期,业界风传“理想智驾团队裁员至1000人以内”。但是,对于自动驾驶研究,人多未必力量大。李想和理想汽车希望在自动驾驶领域更多的发声,来和特斯拉、华为、小鹏争夺自动驾驶、智能驾驶的话语权和标签,提升理想汽车在各个层面的吸引力。01从老婆开车思考自动驾驶“我的爱人刚学会开车,连续好多年都不停地刮蹭。你和她分析下一次怎么不刮蹭,还是没有用,还是刮蹭。”李想说,最后他给他爱人报了宝马驾驶培训的初级班,此后才不再剐蹭。他的意思是,学习cornercase没有用,需要靠通过提升能力解决问题。人类是这样学习驾驶的,AI也应当如此。
所以,如果“自动驾驶团队每天干的活都是靠人工去调试各种各样的cornercase,而且人越多,cornercase越多,离真正的自动驾驶就越遥远。”那正确的做法是什么?
核心意思是,大脑分成系统1和系统2来工作。系统1来处理一些直觉、快速响应的事情。“很多时候我们在开车,脑子在想别的事情,但我们仍然在处理路上的各种事情,这就意味着我们用系统1在工作。”“当去到一个复杂的路段,比如十字路口或者遇到一个水坑,这时候调用大脑系统2工作,处理复杂逻辑推演的能力。”处理简单问题的自动驾驶系统1,李想说,今天很多自动驾驶团队都用端到端技术来解决,效率更高。但是包含三个挑战:一是要有真正做端到端及数据训练的人才,二是需要真正高质量的数据,三是需要足够多的算力。李想说,理想汽车“大概放入了100万Clips(视频片段),用于端到端的训练,大概一个月十轮左右的训练,基本就可以完成一个无图NOA的上限水平。”处理复杂路况的系统2,李想认为不能依赖解决cornercase,而是要提升能力。他认为需要用VLM,即视觉语言模型,来提升能力。现在,由于ChatGPT等应用的示范,大语言模型LLM很火。但他认为大语言模型在云端使用,响应速度慢,遇到问题还来不及反应会车毁人亡了。“所以我们还是思考如何把一个视觉大语言模型进行足够压缩,最后放到车上去。”李想还说,VLM能够让自动驾驶告别高清地图。因为视觉的语言模型能够像人类一样去读懂导航地图。找到技术方案分别解决系统1和系统2问题之后,还需要对能力进行验证。
理想的方案是,用类似Sora的技术,构建一个小型的视觉模型,来检测自动驾驶的能力。Sora和ChatGPT出于同门,也是美国人工智能研究公司OpenAI的作品。Sora可以根据用户的文本提示,创建最长60秒的视频。OpenAI将它视作世界模拟器。
Sora生成的视频中的一个画面Sora在今年春节期间发布,视频逼真效果引起震撼。当时,就有智能驾驶业界人士评论,Sora或可以用于自动驾驶模拟训练。但也有人表示,Sora会生成大量不符合物理规律的视觉内容,并不可靠。李想总结,理想汽车过去一段时间自动驾驶最重要的技术突破就是——端到端承载人的系统1,VLM来承载人的系统2,并应用生成式的小的视觉模型来进行考试。他还说,这一方案“已经完全通过了正常的研究验证。”李想会提出VLM来解决自动驾驶问题,不是突然兴起。此前,理想汽车与清华大学交叉信息研究院一直在进行联合研究。今年2月,双方团队联合发布了论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。根据该论文,双方提出的DriveVLM模型,在 nuScenes(一个公开的可供测试的自动驾驶数据集)规划任务上取得了最先进的性能(下表)。
基于这一技术路线,李想对理想汽车和全行业的自动驾驶进展非常乐观。
他表示,最早在今年年底,最晚在明年上半年,真正有监督的L3自动驾驶就就可以批量向用户交付了,而不是做实验,“并且随着这套技术的演进、算力增强,我认为L4级别无监督的自动驾驶在三年内一定能够实现。”02
理想智驾现在什么水平?李想此时发布理想汽车对于自动驾驶的技术路线,很多人可能不服。就当前的智能驾驶、自动驾驶实践来说,全球市场特斯拉独领风骚,国内华为和小鹏更被认可,理想汽车在前列,但绝非引领者。
从车辆当前的智能驾驶水平而言,消费者有感知的还是功能和功能可用性、体验性。功能层面,当前对比的“科目”,一般而言就是可以根据导航和限速自动行驶的辅助系统——高速领航驾驶和城市领航驾驶。
如今,第一梯队都至少具备了高速领航功能,并且实现了高速和快速全覆盖。在城市领航驾驶方面,华为系(问界、阿维塔、极狐阿尔法HI版、智界)和小鹏覆盖范围最广,理想汽车大概在第三名或者第四名。
目前,理想汽车正在进行近千人规模的AD MAX 3.0进阶版测试,核心功能是实现无图城市NOA,要做到全国都能开、有路就能开。
这一版本就是李想所说的,即将在今年三季度正式推送的版本。如果这一版本能够顺利推出,那就在功能和覆盖范围上,理想就可以追平华为了。李想在提及此事时还说,届时,理想也会向测试用户提供通过300万Clips训练出来的端到端+VLM的一套监督型自动驾驶体系(即L3)。并且,“最早会在今年的年底,最晚明年年初,我们会推出超过1000万Clips训练的端到端+VLM的带有监督的自动驾驶体系。”按照李想同一场合的说法,这一系统,就是可以交付的“真正有监督的L3自动驾驶”。目前的理想汽车,还未完全从此前MEGA受挫等一系列的挫折中摆脱出来。
首先是MEGA受挫后,内部启动了矩阵组织2.0的升级,其次,理想汽车启动了大范围的裁员。据《21世纪经济报道》等媒体报道,五一过后,理想汽车开启了一轮比例超过18%的优化行动。到目前为止,本轮优化已经基本结束,包括裁员重灾区智驾部门。在产品层面,李想在一季报电话会上宣布,原本计划今年发布的三款纯电推迟到明年发布。今年重点还是经营L系列。在销量上,理想汽车5月交付3.5万辆,同比增长23.8%,环比增长35.8%,在新势力新品牌中依旧可以排名第一,比华为系——鸿蒙智行(问界、智界)更多。只是,理想汽车2024年的目标颇高。最早理想汽车曾定下80万辆目标,3 月 21 日,下调到56 万-64 万辆。《晚点汽车》近期还报道说,在三款纯电 SUV 延期发布之后,理想再次下调全年销量目标。在组织、产品、智驾等方面的大调整之后,理想汽车需要更多时间来修复外界预期和内部士气。在一季报电话会上,有分析师问李想,如果销售不如预期,理想汽车会不会再次降价。李想当时的回应是,理想L系列订单增长很快,没有任何降价计划。