动力性能测试  |  制动性能测试  |  振动与噪声  |  操作稳定性测试  |  空气动力学  |  耐久性试验  |  安全性测试  |  车身及材料测试  |  环境测试  |  数据采集分析  |  仿真与模拟  |  电子系统测试  |  自动驾驶测试  |  新能源测试  |  汽车实验室  |  模态试验  |  变速箱测试  |  悬架K&C试验  |  排放测试  |  汽车评测  |  汽车测试展  |  异响测试  |  测试行业动态  |  汽车技术  |  

面向结果的自动驾驶功能评价

2019-04-15 23:35:15·  来源:测试与评价研究室 同济智能汽车研究所  
 
0
编者按:随着汽车智能化趋势的发展,自动驾驶功能评价的重要性也日益凸显。在自动驾驶功能覆盖面广、评价标准缺失的现状下,本文提出面向结果的理念,可以针对特
编者按:随着汽车智能化趋势的发展,自动驾驶功能评价的重要性也日益凸显。在自动驾驶功能覆盖面广、评价标准缺失的现状下,本文提出面向结果的理念,可以针对特定功能目标分别进行评价,有可能为智能网联汽车的测试评价研究打开新思路。

本文译自《2018 IEEE Conference on Decision and Control (CDC)》,作者为Davide Gagliardi, Pavlo Tkachenko, Luigi del Re.   

摘要:自动驾驶功能(Autonomous Driving Functions,ADF)正在迅速发展,但业界仍未就如何在现实世界中测试它们的安全性和其他性能达成一致。由于时间和成本的限制,无法进行充分的道路测试,因此普遍共识是需要基于仿真的测试评价。对于这样的评价,仿真中包含的场景应代表被测功能的预期实际使用场景,但是关于时间范围的选择以及如何确保测试场景是否具有代表性尚没有指南。在此背景下,本文旨在提出面向结果的方法以确定实现给定置信水平所需的仿真长度,从而解决时间范围选择的问题。这一方法使得不同仿真条件下的结果具有可比性,同时优化了总仿真时间,并可用于评价其他场景的独特性。

1、引言

自动驾驶功能的重要性日益凸显,但仍没有统一的方法评价其性能。因为道路测试需要投入过多的时间和费用,因此当前业界普遍认为需要一种仿真测试方法。用于测试的仿真环境通常包括3个关键部分:车辆模型(本车)、被测系统模型(system under test , SUT, 此处即指ADF)和系统预期运行环境条件模型。环境条件通常概述于“场景”中,包括但不限于道路属性(车道数、坡度、出口、路障、道路条件等)、交通属性(其他交通参与者的数量和速度、其他驾驶员的可能模型)和总体环境条件(能见度、天气条件等)。典型的基于场景的ADF评价首先通过对真实数据分析识别得到相关交通状况,然后对场景进行建模并用于ADF的仿真和评价。
图1 总体评价结构

随着ADF功能性提高和运行持续时间延长,很难找到一组先验定义的相关场景。例如为了评价自适应巡航控制器(Adaptive Cruise Controller, ACC)的燃油节省量,场景中必须包括实际交通中经常出现的“正常工况”(normal cases);而对于安全性评价,导致事故的“极限工况”(limit cases)至关重要。目前为止,对于同一功能的使用场景并没有唯一的定义,以ACC为例,根据关注点是燃油经济性还是安全性,可以使用完全不同的场景进行评价。考虑到这一情况,文献中推荐使用连续交通微观仿真环境,而不是纯粹基于场景进行测试,这些仿真环境包括旨在反映真实驾驶情况的交通模型。

仿真测试存在一些局限性。首先,仿真结果不是先验正确的,因为没有模型是完美的并且可以无限精确地表示真实行为。其次,重要特征可能在建模阶段受到人为影响,或者在仿真运行中表现不足或过多,导致评价结果出现偏差。此外,尽管相比于道路测试,仿真测试速度更快且重复性好,但若考虑所有工况,仿真仍需要大量时间。在实践中经常使用先验停止标准(a priori stopping criteria)来执行测试,例如每种工况的最长仿真时间或固定重复次数,由此得到的最终结果通常是无需进一步分析的某些绩效指标的平均值。

已有研究显示,在不评价统计特性的条件下使用和比较仿真结果可能会产生误导,因此我们建议将结果的统计显著性评价与仿真运行相关联,这可以为所有仿真运行确定先验显著性水平,以使结果有可比性或可用于其他方案的评价。

2、评价方法

2.1 ADF目标确定

每个ADF具有至少有一个必须满足的关键功能,例如ACC的速度跟踪功能和制动辅助的紧急情况减速功能等,通常用与控制器任务直接相关的可测变量来量化其性能。如果我们用变量x表示本车状态,则控制器目标可用目标集X*进行识别。以ACC为例,目标集是本车的期望速度。在评价已定义的ADF质量,即实际数据与目标集之间的差距时,对于ACC,这可以是由周围交通的扰动引起的与期望速度的偏差。

2.2 与目标一致的KPI定义

评价过程的第二步是定义一个能够“观察”SUT与期望目标或行为间偏差的指数。若我们将SUT的状态视为随机过程X(t),则关键绩效指标(Key Performance Index,KPI)可定义为在系统状态下通过定义函数f(KPI)得到的另一个随机过程Y(t)。原则上,选定的函数f(KPI)既不能忽略SUT由于测试过程中的扰动而产生的与其期望行为的偏差,也不能突出这一偏差。对函数f(KPI)的最低要求是单边有界,并在X*处达到其最小值。为了清楚起见,我们指出,原则上,KPI可以同时评估多个目标但不能作为风险函数。只有在进行单一安全评价的情况下才可以用风险函数表示KPI。

2.3 KPI描述统计值选定

由于KPI是一个随机变量,我们感兴趣的是它在统计方面的表征(本文中指其统计特征参数)。因此,所研究参数的随机“时刻”(平均值、方差或等效标准偏差)、中位数以及形状参数(如偏度、峰度、所研究参数的置信区间)是出于这一目的考虑的自然统计参数。用通用统计数据值q(KPI)描述KPI,并假设由于实际原因,q(KPI)是有限的。

这些参数的估计只能通过在仿真期间收集KPI测量值来完成。应特别注意用于收集测量值和估计随机过程统计数据的方法,因为一般来说它会影响估计。                    

2.4 仿真流程定义

对于随机过程,文献中提供了大量针对期望算子的估计方法。通常,不同的估计程序可导致对相同量估计的不同,这些结果既受基础随机过程的性质的影响,也受到用于评价的样本的代表性的影响。另外,抽样过程也取决于估计目标。

第一种期望估计方法称为遍历。这一方法假设在足够长的观察时间内,随机过程的每个轨迹都将在相同的评价时刻显示其样本几何的相同特征,即状态空间平均值可以用时间平均值代替。第二种期望估计方法称为蒙特卡洛方法,这一方法将随机过程Y中的N个互相独立的、时长足够的仿真中出现的极限值视为总体样本。

2.5 收敛准则定义

仿真运行期间,模拟器产生的场景(包括周围交通和本车的轨迹)会扰乱SUT,并通过估计KPI的值测量实际数据与控制器目标间的偏差。经过一定的仿真时间(或n个样本)后,将不再有新事件产生,即KPI的统计量不会随着仿真时间的增加而显著变化。收敛意味着随着仿真时间的增加,统计量的估计值会收敛到一个恒定值,并且值置信水平很高。一般而言,从统计角度来看,关键是有足够的样本量以确保KPI统计量具有一定的置信度。

3、应用案例及结果

3.1 应用案例

ACC在跟踪期望速度的同时,还应确保不会对周围交通造成危险。在本文中,我们以ACC功能评价为例应用所提出的方法。控制器输入为纵向加速度a,并考虑到真实驾驶情况,将a的值限定在±2.5m/s^2之间。控制器则根据本车状态变量进行控制,周围交通环境中的所有相关信息在建模中视为本车状态扰动。ACC功能被认为是在两种行为模式之间转换:本车速度控制目标为期望速度的巡航模式;本车速度控制目标为前车速度的跟车模式。对于两种行为模式需要分别选取合适的KPI。

本文中用于评价SUT的仿真环境包括在贝叶斯网络图形模型基础上建立的随机交通环境模型,交通参与者的预期运动位置建模则使用的是叫作条件线性高斯模型的一类特殊贝叶斯网络,根据其前后驾驶行为对其状态进行分区,针对每个预定义的前后驾驶行为(巡航、跟车、向左换道、向右换道)提出合理假设,并在实际交通测量数据基础上进行训练。

图2 仿真环境示意图(红色为本车)

由于ACC有两种运行状态,故f(KPI)由两部分组成,计算定义如下:


当相对速度小于0时,即本车速度小于前车速度,计算式中两者均不为0,即ACC功能性能损失增加。因此,该参数的引入可以防止ACC功能产生过于保守的减速行为。

f(KPI)的值在本文研究中需要进行两次估计分析。第一次估计分析采用的是遍历方法,随后采用蒙特卡洛方法对第一次分析所得的f(KPI)估计值进行第二次估计。

3.2 仿真结果
图3 某次仿真过程所得结果

对于图3中的仿真过程,本车最初处于巡航模式下,并在ACC的控制下以期望速度行驶,在此阶段,不对f(KPI)进行评价。一旦安全距离内出现前车,ACC则切换到跟车模式,并开始对f(KPI)进行评价。本文共进行了200次仿真,f(KPI)值的分布如图4所示。

图4 f(KPI)值分布直方图和拟合曲线

本文同时研究了样本大小n对f(KPI)值置信区间的影响。按图5所示,直方图分布服从Gamma分布,且随着n的增加,95%置信区间变窄。

图5 样本大小对f(KPI)值置信区间的影响

图5的结果表明,为了在随机仿真环境中评估ADF,应仔细选择仿真持续时间。较短的仿真(本文中小于1000或2000个样本)可能得到误导性的性能评价,其结果仅表征特定仿真下的ADF行为。而从一定的仿真长度开始(本文中为3000-4000个样本),测试中的ADF性能变得可靠,且几乎独立于随机模型生成的仿真条件。

4、结论和展望

本文提出了一种在随机仿真环境中评价自动驾驶功能的整体方法。本文讨论的关键问题是如何确定必要的仿真时间以获得可靠的评价结果。基于ACC的应用案例表明,随机环境中较短的仿真可能导致对ADF性能评价做出错误的结论。另一方面,过长的仿真并不能提供有关ADF性能的额外信息,且计算成本大幅提高。

目前的研究是在对正常交通行为进行校准的交通随机模型上进行的。这项工作可扩展至探索在不同校准或甚至产生更危险的情景特定校准下,KPI估计值如何变化。我们还期望通过使用基于KPI的ADF性能统计分析,以实现不同交通场景之间的比较(例如对于测试中的ADF更具挑战性的场景)以及不同ADF之间的比较(执行相同的操作任务)。一旦成功,还可以进一步预选出对相应ADF的测试来说至关重要的场景,这将意味着显著减少评价ADF所需的时间和成本。
​