分享 | 张亚勤:走向无人驾驶

2021-10-21 22:42:42·  来源:清华大学智能产业研究院  
 
清华大学讲席教授、智能产业研究院(AIR)院长张亚勤近日发表题为《走向无人驾驶》的演讲。围绕自动驾驶的发展背景、单车智能与车路协同以及AI算法应用三大板块
清华大学讲席教授、智能产业研究院(AIR)院长张亚勤近日发表题为《走向无人驾驶》的演讲。


围绕自动驾驶的发展背景、单车智能与车路协同以及AI算法应用三大板块,深入探讨了在人工智能发展的大背景下自动驾驶领域正在发生的基础性变革,并对未来落地形态做出长远展望。


当前我们正处于数字化3.0时期,包括物理和生物世界的数字化,其中物理世界的数字化,即“互联网的物理化”——汽车、公路、交通、工厂、电网、机器,乃至所有移动设备、家庭、城市都在数字化。数据指数增长,比如一辆无人车每天产生的数据量大约5T;相比于数据主要提供给人员辅助决策的1.0和2.0时代,数字化3.0时期99%以上数据是M2M和机器决策。


二是生物世界的数字化,我们的大脑、器官、DNA、蛋白质、细胞、分子...都在数字化。生物芯片、组学技术、和高通量实验产生了天文级的数据。从虚拟、宏观到微观,整个数字信息世界、物理世界和生物世界正在走向融合。


以ABCD,也就是人工智能(AI)、大数据(Big Data)、云计算(Cloud)和装置(Device)为技术基础,我们锁定了智慧交通、工业互联网和智慧医疗为起步阶段的三个研究方向。这三个方向有一些共同点:一是都面对着巨大的商业空间和发展机遇。二是人工智能在探索过程中发挥着特别重要的作用,甚至是决定性、颠覆性的作用。三是相关研发成果实用化、普及化之后,将产生可观的社会效益。

01自动驾驶发展背景

1908年,Henry Ford先生推出世界首款量产乘用车Model-T,一场随之而来的技术革命拉开了现代汽车工业百年发展的序幕,一个基于燃油技术的成熟产业也逐渐形成。
环保带动的新能源革命搭乘数字化与智能化浪潮,在产业政策的刺激下推动汽车行业向网联化、智能化、共享化、电动化转型。这场汽车革命发展迅速、来势迅猛,超出了很多人的预期。自动驾驶作为这场革命中的关键技术,将从安全、效率、商业模式等多方面赋能交通产业升级。
首先,自动驾驶将会极大地提升交通安全。世界卫生组织的《道路交通伤害报告》中指出,全球每年有135万人死于交通意外。其中95%以上是人为错误导致的,而人工智能的介入可以大幅降低人为事故隐患。自动驾驶车辆的安全标准需较人类驾驶提高至少一个数量级,达到十倍于人类驾驶的安全系数。
其次,自动驾驶将会提升交通系统的出行效率与能源使用效率。麦肯锡的报告显示,自动驾驶将为出行者节省40%的时间并减少40%的燃料消耗。马潍博士在 《智能驾驶助力碳中和》报告中指出,自动驾驶的应用可以将汽车排放约占碳排放总量的比重从15%降低到5%左右,将会为全球气候的改善产生很大贡献。
再次,自动驾驶将会创造巨大的商业价值。据伦敦知名技术企业家Tej Kohli预测,人工智能所带来的产业机遇将达到150万亿美元的规模。其中,自动驾驶驱动的智慧交通产业占比近十分之一。如此巨大的商业价值意味着全新的机会,这些机会来自于新的芯片、新的操作系统、新的软件、新的服务以及新的产品。


1984年,美国国防部高等研究计划局(DARPA)的ALV项目进行的首次自动驾驶尝试。随后,DARPA在2004年组织了野外自动驾驶挑战赛(Grand Challenge)。2007年,挑战获得的成功使科技界看到自动驾驶的潜力,一批科学家进入谷歌开展自动驾驶研究。随着共享出行与电动车的崛起,自动驾驶逐渐吸引越来越多的科技公司、传统汽车厂商与新能源汽车厂商的注意。在中国, 李德毅院士团队和郑南宁院士团队等都做了大量的开创性科研工作。百度在2017年推出阿波罗开放平台,进行从小型客车到Robotaxi的道路测试,积累了大量的技术经验。这十年,是自动驾驶从实验室产品逐渐走入生活的十年,也是为未来智能交通变革奠定基础的十年。


业界将自动驾驶的能力分成L0到L5的一系列等级,让人类信任自动驾驶,还需要不断提升L3级以上的自动驾驶能力。L3能够提供有限条件下的自动驾驶,但仍假设人类能够随时接管。从L4开始,人类不需要随时接管自动驾驶,而最高级的L5甚至不提供人类参与驾驶的能力。是否选择自动驾驶,不仅是技术问题,更是公共安全与社会接受度的问题。与此同时,道路智能也在发展,从车端与路侧必要的信息交互到进一步的协同感知,一直到交通作为整体的协同决策控制,路侧可以帮助车端逐步拥有越来越强的能力,以避免严重自动驾驶事故的发生。更近一步,智能化的道路可以实现规划层面的协同,减少变道和拥堵。随着自动驾驶的普及和道路智能的发展,道路和交通流协同设计将为出行者提供更全面的服务。


刚才提到,自动驾驶不仅仅是个技术问题,更是一个社会问题。从商业到政策与社会角度自动驾驶会产生多方面的影响,可以看到市面上的各个厂家分别持有不同的看法,也分别进行了不同的路径选择。


回顾过去60年,人工智能的发展几经沉浮,在经历了两次AI寒冬之后,过去十年,随着深度学习技术的发展,人工智能进入了大数据、大计算、大模型算法的时代,也取得了巨大的成就。从AlphaGO、AlphaZero在围棋领域战胜人类,到AlphaFold2在医疗领域高精度预测蛋白质结构等,深度学习算法和人工智能技术正在逐步改变物理世界和数字世界。未来五至十年,深度学习还会是人工智能最重要的算法,但未来无疑需要知识+数据驱动的融合算法,需要结合符号逻辑、知识型推理和第一性原理的新范式
具体在自动驾驶中,要求智能驾驶决策可解释、避免人类的危险决策、客观评价规划算法、并且能够有效评估自动驾驶系统在驾驶过程中的智能能力。自动驾驶针对高复杂性场景同时本质的又具有高可靠性需求,可以说是最具挑战的有边界的AI垂直领域问题。


在技术层面,作为自动驾驶安全的基础,感知是首要的值得关注的问题。计算机和人类一样,需要在驾驶过程中动态地对周边的三维场景进行时空建模。在不同的场景下,借助不同模态的数据,算法不仅要完成对于车辆、行人等目标的检测,还需实现对于路标、交通信号等语义的理解。同时认知理解的道路交通信息传递给决策规划层,结合人类与机器的智能经验进行行为规划与决策,最终控制实车的方向盘和油门刹车完成实际的驾驶过程。这整个过程的模型,是通过云端的联邦学习与V2X路侧智能平台,结合仿真手段,不断更新迭代的。


自动驾驶是一个十分复杂的系统问题,涉及到感知、认知、规划、决策与执行等诸多环节,需要在极短时间内做出可执行的正确决策。同时,自动驾驶也是一个复杂的狭义人工智能问题,可以被分解为有边界的子领域技术问题,因此我认为自动驾驶是可以实现的。并且,自动驾驶仅需在安全维度相比人类驾驶实现数量级的提升。在实现自动驾驶的路径上,涉及的关键问题可以分为两类:一类是市场力量,例如技术可行性、用户需求挖掘、产业生态走向与商业模式等。另一类是非市场力量,包括政策、法规、伦理、隐私以及其他人为因素。


复杂的技术体系,本质的安全与可靠性要求,自动驾驶在开放环境的长期运行需要经受一系列的技术与社会接受度的挑战。但是对于垂直案例来说自动驾驶已经运行很久了,比如图片里是澳洲铁矿石出口商Fortescue metals Group(FMG),与世界上最大的工程机械厂商Caterpillar合作的自动驾驶矿车,从2012年至今已经运行了9年了,运送矿产过十亿吨,累计行驶超三亿公里,相当于从地球到太阳往返一次。


像这样的垂直应用领域还有很多,可以看到,作为一个移动运输的载体,从重型到轻型各种类型适合自动驾驶的车辆多种多样,这中间存在非常多的机会。这些尝试都在追求一个共同的目标,就是用自动驾驶技术消除这些场景存在的痛点,让人类的生产和生活变得更加高效。


美国加州的开放道路自动驾驶测试数据显示,百度Apollo的自动驾平均接管里程(MPI)在2020年四月已经超过18000英里,相当于普通人开半年至一年车才需要接管自动驾驶系统一次的水平。在国内,百度Apollo在北京亦庄等全国各地测试的Robotaxi自动驾驶出租车正处于规模化试运营的阶段。


麦肯锡与百度在2017年进行的一个预测报告分别衡量了未来十到二十年L3及L4以上级别自动驾驶。报告认为,最为乐观的认为有条件的L3自动驾驶在2030年新车渗透率可以达到50%,L4以上完全自动驾驶达到15%,悲观一些的角度来看L3以上程度的自动驾驶在20年之后2040年能达到30%,这取决于自动驾驶技术的表现以及社会的接受程度。


02单车智能感知

环境感知任务可以分成三类。
第一类是常规道路参与者的检测,包括车辆,行人、自行车等。他们的共性是可移动并大小相对固定。通常使用bounding box(框)的表达方式把算法检测到的障碍物用三维立方体框紧致的包裹起来。
第二类是道路元素的检测,比如红绿灯、限速标识、车道线、栅栏路沿等。这类元素通常尺寸和位置固定,但其大小和形状不规范不再能简单的使用bounding box描述表达,通常需要结合高精地图做更高级(high-level)的表述,比如使用样条曲线拟合车道线。
最后,在很多无人驾驶场景中,简单的bounding box已不足以精确的描绘现实世界,这时对场景做语义级别的理解就非常必要。所谓语义(semantic)级的表达就是对图像的每个像素,激光雷达返回的每个3D点做聚类(grouping或者clustering)和分类(classification),细粒度的表达方式除了能够更细致的描述物体的与无人车时空关系外,还能提供道路上的可行驶区域(free space,drivable path)这样的重要信息,让无人车可以无障碍通过没有车道线的非结构化道路和狭窄空间。


这里有典型的几起自动驾驶事故,比如第一个自动驾驶撞上侧翻的大货车,侧翻的货车车顶缺少纹理特征,看起来就像白色的云,这种情况下仅依靠视觉的自动驾驶无法判断距离。随着技术的改进、车载激光雷达的低成本大规模普及、多模态数据融合感知的发展,这样的事故风险会逐渐降低,但是真实世界远比这要复杂。多样化的地点、天气、路况构成的复杂场景永远存在未知可能,而这中间很少遇到的corner case边角案例往往会导致事故发生。自动驾驶感知最大的挑战来自于泛化不足。遇到陌生的交通环境时,自动驾驶系统往往无法提供精准可靠的感知能力。相比之下,人类驾驶员不仅可以解决过往遇到的困难,还能够应对新的突发问题。不过,人类的驾驶能力不具备复制性,不同司机的驾驶水平可能相差较大,而可靠的自动驾驶系统则可以任意复制,这是人工智能的优势所在。


自动驾驶车辆需要一系列的传感器来共同完成感知任务。不同传感器各司其职。激光雷达可以直接采集距离信息,实现三维环境匹配及盲点探测;摄像头可以实现物体的快速辨认和车道识别,所采集的信息包含色彩和更多细节;雷达可以进行速度和距离的测量,发出碰撞预警并进行紧急制动;在恶劣天气下,相较于激光雷达和摄像头也会有更好的表现。所有传感器联合起来构成对车辆所处环境全方位的立体扫描。


理论上,多传感器的融合可以获取到比人眼更多、更高维度的数据,可以感知到肉眼不可见的物体,这是现阶段自动驾驶中唯一确定的机器可以超越人的环节,也是影响自动驾驶安全提升的决定性因素。使用单一的视觉传感器容易受到光照和天气等因素影响,因此导致自动驾驶系统产生误判的例子屡见不鲜。比如前面例子里,特斯拉把白色大货车误判为白云毫不犹豫地撞了上去。在这种情况下,配合采用激光雷达等传感器可以最大限度提升自动驾驶安全。


种情况下,配合采用激光雷达等传感器可以最大限度提升自动驾驶安全。


实际上宽视角的激光雷到2005年的DARPA挑战赛时才引起广泛注意,但是当时激光雷达昂贵、体积大、可靠性低难以符合车规,并不能满足普及需求。此后各方开始推进多种技术路线的混合固态式激光雷达,希望把成本与体积、可靠性提升到可以大规模接受的水平。未来,固态激光雷达的价格低廉、更容易实现车规,是商业化应用的更好选择。虽然固态激光雷达仍然存在由于技术不成熟所带来的精度不足、采集距离较短的问题,但行业的主要玩家,如Velodyne, Innoviz, LeddarTech都将研发固态激光雷达作为未来的重要方向。


目前,部分混合固态式激光雷达的价格已经在1000美金以内。未来,随着技术更新迭代和大规模量产,激光雷达的价格会继续下探,甚至会成为汽车的一种标配。


03车路协同

若完全依赖单车智能,corner case将更难以得到解决,如果计算能力无法快速突破、硬件价格无法快速下降,则自动驾驶将永远无法实现。若完全依赖V2X的自动驾驶,现实性依赖于基础设施是否可被全面改造、汽车是否可实现全面联网,改造成本非常高,几乎不可能。另外,在这种模式下,集中化的车辆控制将使车内乘客将被汽车“绑架”,丧失自主权。


两种模式的缺陷都是明显的。因此我们认为,自动驾驶的快速大规模应用必须依赖单车智能和V2X的结合。


近年来,随着智能网联逐步上升为国家战略,车路协同技术得到了快速发展。相较于单车智能的感知局限性,车路协同具备获取全局交通信息、感知范围更全面等优势,能够为单车智能提供互补与冗余信息,进而提高自动驾驶的安全性。
在理论方面,AIR的研究团队将感知不确定性加入到驾驶安全评价框架中,在全球范围内率先针对车路协同自动驾驶的安全提升进行了量化计算与分析,系统地阐述了车路协同自动驾驶的必要性。总的来说,分成场景分布模型、车辆感知交互模型、和自动驾驶安全评价模型三个部分。根据场景分布模型和交互模型得到每种场景行为组合的概率分布,以及对应的驾驶行为的安全影响。结合这样的分布和影响就可以得到最终的安全评价指标Psafe,这衡量了在相应感知交互设定下全场景分布的安全性状况。


具体来说就是把单车感知和车路协同分为两个情况来考虑,分别用相应的感知模型来计算,把不同感知状况带来的行为影响分别带入到安全评价中,分别得到在单车智能与车路协同情况下的安全性评价结果。


VICAD- SRM实验结果表明:车路协同的感知分别将超视距、大车遮挡换道、无保护左拐等三种情况的事故率降低了分别1.6倍、6.5倍、10.8倍,安全性获得了数量级提升。



(全球政府部署V2X的积极推进情况)
Apollo在国内部署了超过500辆自动驾驶车辆,V2X路侧感知点位超400个,基于此的车路结合构造海量场景每天超过1000km,单个路侧点位每天服务超过100个车次,单日产生的数据量在40TB以上,车路协同每天可获得超一百条有价值的数据。


为进一步探索车路协同自动驾驶的落地,AIR联合国内顶尖自动驾驶企业百度,发布了Apollo Air计划。该计划有三大特点:依靠纯路侧感知实现自动驾驶、持续降维反哺车路协同产品、标准开源开放实现业界共享。Apollo Air技术的创新之处在于,在不使用车载传感器,仅依靠路侧轻量感知的前提下,利用V2X、5G等无线通信技术就可以实现车-路-云协同的L4级自动驾驶。经过不断研究反复测试,目前团队已经完成对北京亦庄、广州黄埔、沧州等若干路口进行智能化改造,实现了Apollo Air纯路侧感知技术在L4真实场景的测试。


04自动驾驶中的AI算法

自动驾驶是一个庞大的智能系统,包括传感器数据感知定位、认知理解、决策规划、以及云端的联邦学习与仿真平台等部分。


在这里只能代表性的讲一讲自动驾驶过程中涉及的几类典型问题与算法,我这里提到的都是产学界的公开工作,例如:
  • 通过研究点云数据压缩算法提升处理自动驾驶海量三维数据的效率;
  • 通过研究目标检测算法提升车辆、行人等目标的位置感知精度;
  • 通过研究场景补全算法改善远距离点云数据稀疏的问题;
  • 通过研究对抗学习算法算法在仿真环境中模拟生成极端场景,提升自动驾驶测试效率;
  • 通过研究动态环境下的SLAM算法提升车辆在复杂环境下的定位精度;
  • 通过研究全景分割算法提升场景理解与物体追踪的可靠性;
  • 通过研究多模态信息融合算法最大化发挥多模态数据的优势;
  • 通过研究模型压缩算法提升车载、路端等计算平台的利用效率。

激光雷达数据高效压缩,空间八叉树熵编码。


三维目标检测,三维空间卷积与PointNet点云深度表示相结合。


视频流的理解过程包括全景分割,语义分割,深度预测,预测物体中心位置连续帧匹配,持续物体追踪,实现全面的场景理解。


单视角的稀疏激光点云并不能完整感知目标场景,通过语义场景补全,获得具有语义信息的稠密点云,实现对道路场景的完整理解。


暗光弱纹理场景对于纯粹视觉的SLAM定位算法面临非常大的挑战, 场景中的语义信息可以为SLAM算法通过稳定的特征关联,从而实现鲁棒准确的定位。


联邦学习是致力于于在不泄露隐私不泄露真实数据的条件下,通过分布式交换计算中间结果,实现提升完整模型能力的方法。典型的,联邦学习分成横向和纵向两类。
  • 横向联邦学习:保证相同模态不同来源数据之间的隐私性
  • 纵向联邦学习:保证多模态数据之间的隐私性


云端高精度模型无法车载部署,需要保持性能的同时进行模型压缩,实现车端部署,实现在真实驾驶环境下的实时车道线检测。


实现安全自动驾驶的瓶颈在于解决长尾的corner case,真实世界的极端情况搜集成本非常昂贵,因此极端情况的仿真生成非常重要。这个例子通过已有的复杂状况现场分布,对抗生成更多相似的复杂状况,找到针对性的场景,帮助自动驾驶更充分的适应复杂驾驶环境。


(多模态传感器数据融合与端到端自动驾驶)
自动驾驶使用可见光相机、激光雷达等多种类型传感器,不同形态的传感器数据我们称作多模态,这里的工作通过不同模态信息多层次互相翻译实现多模态传感器信息融合,形成统一的环境感知。并且在此基础上进行模仿学习,通过学习人类驾驶策略实现端到端自动驾驶,在短程驾驶中达到接近人类水平。


展望未来,通过垂直领域逐渐扩散布局到通用驾驶的落地路径,单车智能中的感知泛化与决策的评价机制将会是重点,车路协同不仅是自动驾驶的安全保障,同时也适合中国的新基建需求。希望开放的生态能够帮助智能驾驶更安全、走得更远。
分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号