首页 > 汽车技术 > 正文

BITS: 交通仿真的双层模仿学习方法

2022-09-01 11:21:34·  来源:计算机视觉深度学习和自动驾驶  作者:黄浴  
 
arXiv论文“BITS: Bi-level Imitation for Traffic Simulation“,2022年8月26日,Nvidia的工作。仿真是自动驾驶车辆等机器人系统扩大验证和检验(VV)的关键。

arXiv论文“BITS: Bi-level Imitation for Traffic Simulation“,2022年8月26日,Nvidia的工作。

图片


仿真是自动驾驶车辆等机器人系统扩大验证和检验(V&V)的关键。尽管在高保真物理模型和传感器模拟方面取得了进展,但在模拟道路使用者的真实行为方面仍存在严重差距。这是因为,与模拟物理模型和图形学不同,为类人行为设计第一原理模型,通常是不可行的。


这项工作采用一种数据驱动的方法,并提出了一种可以学习真实驾驶日志生成交通行为的方法。该方法将交通模拟问题解耦为高级意图推理和低级驾驶行为模拟,利用驾驶行为的双层结构,实现了高采样效率和行为多样性。


该方法还结合一个规划模型,获得稳定的长期行为效果。用两个大规模驾驶数据集的场景对方法进行了经验验证,该方法称为BITS(Bi-level Simulation for Traffic Simulation),并表明BITS在真实性、多样性和长时稳定性方面实现了平衡的交通模拟性能。


还探索了评估行为真实性的方法,并为交通模拟引入了一套评估指标。最后,开发并开源了一个软件工具,该工具统一了不同驾驶数据集的数据格式,并将现有数据集的场景转换为交互式模拟环境。


如图是BITS的框架:决策上下文ct是一个张量,包含语义图和光栅化智体历史,按通道连接在一起。给定ct作为输入,(1)空间目标网络产生短视野目标的2D空间分布,(2)目标条件(goal-conditioned)策略为每个采样目标(goal)生成一组动作,(3)轨迹预测模型预测相邻智体的未来运动,以及最后(4)基于预测的未来状态,该框架选择让基于规则的成本函数最小化的一组动作。

图片


交通模拟看作模仿学习


采用以智体为中心的方法进行交通模拟,即每个智体以分散方式进行决策,无需显式协调。其允许与包含其他类型模拟智体的仿真框架灵活地集成,并鼓励出现新的交互行为。这项工作专注于模拟车辆交通,但智体可以是驾驶日志中捕获的任何类型道路用户(例如,骑自行车的和行人)。


用s和c分别表示智体的动态状态和决策上下文。具体而言,状态s包括智体的位置、航向和速度。上下文c=(I,S)包括局部语义图I和一个智体及其N个相邻智体的h个先前状态St−h:t = {s(0),s(1),…,s(N)}。给定决策上下文信息ct和当前状态st,交通仿真模型πθ的目标是生成智体的下一个状态st+1 = T(πθ(ct),st)。用动力学约束的简单单轮(unicycle)模型作为T。


真实世界中捕获的驾驶日志训练交通模型。由于日志数据很容易包括语义图和所有观测的智体轨迹,将驾驶日志视为一组多智体专家演示序列τ = {c(i)、s(i)、c(i)、(s(i)…、c(i),s(i)},


将交通模拟描述为有监督的模仿学习问题。然而,城市驾驶的性质带来了重大的技术挑战。首先,由于模型无法访问演示者的潜在意图和其他与决策相关的线索,例如其他车辆的转向信号,因此是一个部分观察的决策过程。因此,动作监督本质上是模糊的,通常用概率分布建模。


虽然这种模糊性使训练复杂化,但有效地建模动作分布也可以生成不同的反事实(counterfactual)交通模拟。其次,由于每个智体的行为没有明确的协调,它们的联合行为生成了一个可能未来状态的组合空间。这种不确定性使得生成稳定的交通模拟非常具有挑战性。


双层模仿学习为多模态行为生成


交通模仿模型的目标,是通过学习真实世界的驾驶日志(作为演示),来产生各种各样的合理行为。轨迹预测中的大多数现有方法用深度潜变量模型(例如VAE)来捕获行为分布。然而,学习生成稳定的长视野行为需要大量的训练数据。相反,这里提出的方法将学习问题分解为(1)训练高层目标网络,捕获可能的短期目标空间分布,以及(2)训练确定性目标条件策略,学习如何达到预测目标。


空间目标网络(goal network)利用驾驶运动的2D BEV结构,并用2D网格高效地表示空间目标分布。这种分解将多模态轨迹建模的负担,转移到高级目标预测器,使低级目标条件策略能够重用达成目标的技能,提高样本效率。


为长视野稳定性的预测和规划


这样一个双层模拟学习方法,可以从有限的数据中生成合理的交通模仿。该策略可以从多模态空间目标预测器中采样,综合各种行为。然而,该策略的执行仍然受到训练数据规模和覆盖范围的限制。


驾驶日志偏向于正常行为,几乎不包含碰撞或越野驾驶等安全-紧要情况。生成多样行为的目标进一步放大了这一挑战,因为鼓励智体进入地图上未见过的区域并创建新的交互。因此,为了实现稳定的长时间模拟,即使在缺乏训练数据指导的状态下,智体也必须生成合理的行为。


为此,建议使用预测和规划模块来增强策略,以稳定长期轨迹展开。该模块从上述随机双层策略πθ中提取动作样本at,并根据预测的环境未来状态St:t+H,选择基于规则成本函数C最小化的动作,即argmin C(at,St:t+H,ct)。


该方法类似于典型的模块化AV堆栈中的运动规划流水线,重要的区别在于,用学习的策略生成类人运动轨迹候选。关键思想是,策略πθ可以直接跟踪分布内状态下的数据似然,其中大多数行为样本都遵循规则,在最可能的动作可能导致不良后果的状态下,接受纠正指导。此外,采样模块允许在无需再训练的情况下对模拟器进行灵活调整(例如,多样性水平、多个目标的强调)。


交通仿真的评估测度


由于缺乏真值,设计仿真指标特别困难。因此,通常用于评估轨迹预测的平均位移误差(ADE)和最终位移误差(FDE)等指标不适合评估仿真模型。为了解决这一评估差距,文章提出了三种模拟度量:(i)度量模拟智体违反公共交通规则的程度,如越野驾驶或与其他智体发生碰撞;(ii)测量模拟展开的统计数据指标,包括在驾驶特性方面与收集的驾驶日志的相似性,如速度曲线、控制力、驾驶区域的覆盖率以及不同模拟试验之间的行为多样性;(iii)从真实世界驾驶日志中学习到的数据驱动指标,例如在数据驱动的轨迹预测模型下,测量模拟展开的可能性。



SimNet是一种用于交通模拟的确定性行为克隆模型。TrafficSim是原始交通模拟方法以智体为中心的自适应,其特征是各向同性高斯CVAE(isotropic Gaussian CVAE)。消除训练中的场景一致性损失,因为不承担对所有智体的控制。SocialGAN通过对抗性模仿学习生成轨迹。TPP改编自Trajectron++,包括一个离散CVAE,每个离散模式具有高斯轨迹解码器。


还考虑了这些方法的变型,并使用规划和控制模块(标记为“+p”),即选择具有成本函数的未来动作样本。


实验结果如下:



图片




图片




图片




分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号