首页 > 汽车技术 > 正文

基于密集深度强化学习的安全关键数据训练方法

2023-04-25 21:42:42·  来源:汽车测试网  
 
在自动驾驶领域中,如何进行高效而安全的测试和训练一直是一个挑战。本文提出了一种基于密集深度强化学习的安全关键数据训练方法,称为D2RL。该方法利用神经网络识别和删除非安全关键数据,并重新连接关键状态,大幅降低策略梯度估计的方差。通过该方法,我们

在自动驾驶领域中,如何进行高效而安全的测试和训练一直是一个挑战。本文提出了一种基于密集深度强化学习的安全关键数据训练方法,称为D2RL。该方法利用神经网络识别和删除非安全关键数据,并重新连接关键状态,大幅降低策略梯度估计的方差。通过该方法,我们可以在不损失无偏性的情况下,实现对自动驾驶系统的高效测试和训练,从而提高测试效率并确保评估的无偏性。


介绍:


随着自动驾驶技术的发展,安全性成为了自动驾驶系统的最重要考虑因素之一。如何保证自动驾驶系统的安全性并提高测试效率一直是自动驾驶领域的研究热点。本文提出了一种基于密集深度强化学习的安全关键数据训练方法,称为D2RL。该方法通过神经网络识别和删除非安全关键数据,并重新连接关键状态,大幅降低策略梯度估计的方差。通过该方法,我们可以在不损失无偏性的情况下,实现对自动驾驶系统的高效测试和训练,从而提高测试效率并确保评估的无偏性。


背景:


在自动驾驶系统中,安全关键数据的训练和测试是非常重要的。传统的深度强化学习方法在处理安全关键数据时存在问题。因为在强化学习中,智能体通过与环境交互,从而获得数据并进行训练。但是,传统的深度强化学习方法往往会收集到大量的非安全关键数据,这些数据不利于自动驾驶系统的训练和测试。因此,需要一种新的方法来处理安全关键数据。


方法:


我们提出了一种基于密集深度强化学习的安全关键数据训练方法,称为D2RL。该方法的基本思想是识别和删除非安全关键数据,并利用安全关键数据来训练神经网络。具体来说,我们通过删除非关键状态并重新连接关键状态来编辑马尔科夫决策过程,然后只对编辑过的马尔可夫过程进行神经网络训练。因此,对于任何训练情节,来自最终状态的奖励只沿着编辑好的马尔可夫链逆向传播,其中只有临界状态。


相比传统的深度强化学习方法,D2RL方法可以在不损失无偏性的情况下,以多个数量级大幅降低策略梯度估计的方差。这种大幅度的方差减少可以使神经网络学习并实现DRL方法难以完成的任务。因此,D2RL方法可以应用于复杂的驾驶环境,包括多条高速公路、十字路口和环岛,这是以前基于场景的方法无法实现的。通过D2RL方法,我们可以将自动驾驶系统的测试里程减少多个数量级,从而大大提高测试效率和安全性。


应用:


在实际应用中,我们利用D2RL方法,通过神经网络训练背景车辆(BV),以学习何时执行何种对抗性动作,从而提高测试效率并确保评估的无偏性。这就形成了一个基于人工智能的对抗性测试环境,在确保测试不偏不倚的情况下,可以将自动驾驶系统所需的测试里程减少多个数量级。这种方法赋予测试代理以智能,以创造一个智能测试环境,即用人工智能来验证人工智能。这是一个范式的转变,它为与其他安全关键系统的加速测试和训练打开了大门。


结论:


本文提出了一种基于密集深度强化学习的安全关键数据训练方法,称为D2RL。该方法利用神经网络识别和删除非安全关键数据,并重新连接关键状态,大幅降低策略梯度估计的方差。通过该方法,我们可以在不损失无偏性的情况下,实现对自动驾驶系统的高效测试和训练,从而提高测试效率并确保评估的无偏性。D2RL方法可以应用于复杂的驾驶环境,包括多条高速公路、十字路口和环岛,这是以前基于场景的方法无法实现的。通过D2RL方法,我们可以将自动驾驶系统的测试里程减少多个数量级,从而大大提高测试效率和安全性。

分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026620号