基于密集深度强化学习的安全关键数据训练方法

2023-04-25 21:42:42· 来源：汽车测试网

在自动驾驶领域中，如何进行高效而安全的测试和训练一直是一个挑战。本文提出了一种基于密集深度强化学习的安全关键数据训练方法，称为D2RL。该方法利用神经网络识别和删除非安全关键数据，并重新连接关键状态，大幅降低策略梯度估计的方差。通过该方法，我们

在自动驾驶领域中，如何进行高效而安全的测试和训练一直是一个挑战。本文提出了一种基于密集深度强化学习的安全关键数据训练方法，称为D2RL。该方法利用神经网络识别和删除非安全关键数据，并重新连接关键状态，大幅降低策略梯度估计的方差。通过该方法，我们可以在不损失无偏性的情况下，实现对自动驾驶系统的高效测试和训练，从而提高测试效率并确保评估的无偏性。

介绍：

随着自动驾驶技术的发展，安全性成为了自动驾驶系统的最重要考虑因素之一。如何保证自动驾驶系统的安全性并提高测试效率一直是自动驾驶领域的研究热点。本文提出了一种基于密集深度强化学习的安全关键数据训练方法，称为D2RL。该方法通过神经网络识别和删除非安全关键数据，并重新连接关键状态，大幅降低策略梯度估计的方差。通过该方法，我们可以在不损失无偏性的情况下，实现对自动驾驶系统的高效测试和训练，从而提高测试效率并确保评估的无偏性。

背景：

在自动驾驶系统中，安全关键数据的训练和测试是非常重要的。传统的深度强化学习方法在处理安全关键数据时存在问题。因为在强化学习中，智能体通过与环境交互，从而获得数据并进行训练。但是，传统的深度强化学习方法往往会收集到大量的非安全关键数据，这些数据不利于自动驾驶系统的训练和测试。因此，需要一种新的方法来处理安全关键数据。

方法：

我们提出了一种基于密集深度强化学习的安全关键数据训练方法，称为D2RL。该方法的基本思想是识别和删除非安全关键数据，并利用安全关键数据来训练神经网络。具体来说，我们通过删除非关键状态并重新连接关键状态来编辑马尔科夫决策过程，然后只对编辑过的马尔可夫过程进行神经网络训练。因此，对于任何训练情节，来自最终状态的奖励只沿着编辑好的马尔可夫链逆向传播，其中只有临界状态。

相比传统的深度强化学习方法，D2RL方法可以在不损失无偏性的情况下，以多个数量级大幅降低策略梯度估计的方差。这种大幅度的方差减少可以使神经网络学习并实现DRL方法难以完成的任务。因此，D2RL方法可以应用于复杂的驾驶环境，包括多条高速公路、十字路口和环岛，这是以前基于场景的方法无法实现的。通过D2RL方法，我们可以将自动驾驶系统的测试里程减少多个数量级，从而大大提高测试效率和安全性。

应用：

在实际应用中，我们利用D2RL方法，通过神经网络训练背景车辆（BV），以学习何时执行何种对抗性动作，从而提高测试效率并确保评估的无偏性。这就形成了一个基于人工智能的对抗性测试环境，在确保测试不偏不倚的情况下，可以将自动驾驶系统所需的测试里程减少多个数量级。这种方法赋予测试代理以智能，以创造一个智能测试环境，即用人工智能来验证人工智能。这是一个范式的转变，它为与其他安全关键系统的加速测试和训练打开了大门。

结论：

本文提出了一种基于密集深度强化学习的安全关键数据训练方法，称为D2RL。该方法利用神经网络识别和删除非安全关键数据，并重新连接关键状态，大幅降低策略梯度估计的方差。通过该方法，我们可以在不损失无偏性的情况下，实现对自动驾驶系统的高效测试和训练，从而提高测试效率并确保评估的无偏性。D2RL方法可以应用于复杂的驾驶环境，包括多条高速公路、十字路口和环岛，这是以前基于场景的方法无法实现的。通过D2RL方法，我们可以将自动驾驶系统的测试里程减少多个数量级，从而大大提高测试效率和安全性。

分享到：

下一篇：基于深度强化学习的自动驾驶评估方法在实际测试中的验证
上一篇：稀缺性的诅咒与深度学习在安全关键系统中的应用

点赞 0 反对 0 举报 0 收藏 0 评论 0

汽车测试网V课堂
微信公众号
汽车测试网手机站

相关阅读

0 条相关评论

• 瓦力大作战｜轻科普——误码仪（BERT）架构及测试原理解析	• 为什么 HUD 合规真正“卡人”的不是参数，而是证据链
• 辅助驾驶撞扛树枝老人、撞环卫工人是预期功能安全应该覆盖	• 大推力直驱技术助力EPS安全测试，为你的安全出行 “保驾护
• 单机体积，双倍效能！激光切割机玩转“降本增效”	• 同步难？空间挤？这款双出轴电机，是你双十二的“必囤”硬
• 即刻探索8台机器人如何解放数百名工人！	• 考虑驱动单元性能变化的分布式驱动智能车辆强化学习增强运
• eVTOL/飞行汽车→低噪声气动设计与主动降噪控制策略1/3	• 比亚迪车辆避撞专利公布

基于密集深度强化学习的安全关键数据训练方法

微信公众号

编辑推荐

最新资讯

展会预告 | TCT亚洲展倒计时！思看科技五大

整车性能测试体系：汽车试验工程的基本框架

联合国法规R76对轻便摩托车前照灯远近光性

联合国法规R75对摩托车与轻便摩托车气压轮

联合国法规R74对L1类车辆灯光与光信号装置