考虑驱动单元性能变化的分布式驱动智能车辆强化学习增强运动控制
编者按:本文提出了一种面向分布式驱动智能车辆的强化学习增强运动控制框架,旨在解决实际机电系统中因电机控制单元与电机过热、减速器机械磨损等因素引起的驱动单元性能差异与扭矩输出能力衰减问题。文章指出,驱动单元性能差异往往时变且难以准确识别,单元越多补偿越难,因此需要可自动补偿的自适应方法。为此,作者在基于二次规划扭矩分配的分层控制架构上,引入深度确定性策略梯度(DDPG)强化学习模块在线计算补偿扭矩,并强调该补偿过程不依赖故障辨识。实验部分在仿真环境和硬件在环平台上进行验证,并在典型工况下与基线方法对比评估,结果表明该方法在驱动单元性能变化条件下能够提升运动状态跟踪性能,同时满足车载实时运行需求。
本文译自:
《Reinforcement Learning-Enhanced Motion Control for Distributed-Drive Intelligent Vehicles With Performance Variation of Driving Units》
文章来源:IEEE/ASME Transactions on Mechatronics, vol. 30, no. 4, pp. 3090–3099.(2025)
作者:Zhibin Shuai, Siyou Tao, Jicheng Chen, Yijie Chen, Jiangtao Gai and Hui Zhang
作者单位:China North Vehicle Research Institute, Beijing, China, School of Transportation Science and Engineering, Beihang University, Beijing, China, School of Reliability and Systems Engineering, Beihang University, Beijing, China
原文链接:
https://ieeexplore.ieee.org/document/11018510/
摘要:本文研究针对分布式驱动智能车辆驱动单元性能变化的强化学习增强型运动控制问题。为应对这一挑战,首先系统分析了驱动单元性能变化的成因,并将该变化建模为车辆动力学框架中的未知退化系数。在此基础上,将深度确定性策略梯度算法与成熟的控制分配方法相结合,构建了一种分层控制架构,以减轻驱动单元性能波动的影响。通过将基于强化学习的控制与既有控制策略相融合,所提出的框架有效兼顾了车辆横向稳定性与对驱动单元性能变化的适应能力。为验证所提方法,同时开展了数值仿真与硬件在环实验。结果表明,基于强化学习的控制器能够自适应处理多种性能退化场景,并显著提升跟踪精度。此外,硬件在环实验证实了该强化学习算法的实时可实现性,在实际运行条件下取得了令人满意的控制性能。
关键词:控制分配,分布式驱动智能车辆,强化学习
Ⅰ 引言
分布式电驱车辆在推动电动化出行发展方面具有关键作用,具备诸多显著优势,例如更强的机动性 [1]–[3]、更高的能量效率 [4] 以及更低的排放。此类车辆能够在多样化应用场景中提供高性能解决方案,有力推动了向更可持续交通系统的转型。此外,分布式电驱动车辆已在交通运输、物流、军事及公共服务等多个工业领域成功应用。
分布式驱动车辆的运动控制系统通过协调各驱动单元的牵引或制动扭矩来确保车辆行驶安全。一般而言[5],此类系统可分为无模型控制与基于模型的控制两类方法。传统的无模型控制方法(如PID控制器[6])已应用于前后轮主动转向的分散式控制中,但这类方法对参数变化极为敏感,且需大量调试工作,因此难以获得最优解。鉴于分布式电驱动车辆属于过驱动机械系统,协同控制动作至关重要[7]。控制分配技术通过优化期望虚拟控制输入的分配,计算各驱动电机的扭矩输出,从而充分利用系统的过驱动特性。该技术通常与高层反馈控制律相结合,现有研究多采用基于模型的控制器,包括线性二次调节器[8]、滑模控制[9][10]、模型预测控制[11][12]及其衍生方法。
传统控制分配算法通常假设各驱动单元性能一致。然而在实际应用中,由于制造公差、标定误差及工况波动等因素,驱动单元间的性能差异不可避免。若忽略这些差异将导致车辆实际响应与预期控制目标产生偏差,从而影响闭环稳定性,并可能引发潜在的可靠性风险。
强化学习能够在复杂不确定的环境中灵活自适应地学习最优的控制策略,从而有效支撑智能车辆控制设计。该方法已在多项车辆应用中得到成功实践,包括自适应巡航控制系统[13]、变道算法[14][15]、路径跟踪控制器[16]、导航系统[17]以及决策框架[18]。当前基于强化学习的车辆控制应用主要聚焦于在日益复杂的环境条件下提升行驶安全性。
为应对这些挑战,Hu等人[19]提出了一种基于鲁棒控制屏障函数的强化学习架构,确保实现无碰撞的模型参考轨迹跟踪。在此类安全保证框架的基础上,He 等人 [20] 提出一种受“恐惧神经”启发的强化学习框架,模拟杏仁核防御机制以学习风险规避的驾驶策略。针对车辆动力学存在参数不确定性的系统,Shi等人[21]提出了一种基于强化学习的双层控制算法,将确定性策略梯度与自适应动态规划相结合,以解决驱动动力学不确定条件下的路径跟踪难题。文献[22]提出了一种利用强化学习算法求解车辆路径规划问题的端到端框架。
上述大多数基于强化学习的算法主要集中在决策层面。这在一定程度上是因为车辆动力学控制需要对转向、加速、制动等多个连续动作进行精确操控,从而形成了高维动作空间。高维动作空间会显著增加计算复杂度,给强化学习算法带来挑战。在分布式驱动车辆中该问题更为突出,因为其动作空间相较集中驱动车辆更大。此外,由驱动单元性能变化引入的不确定性,也使得基于模型的控制方法难以设计出鲁棒且可靠的控制策略。文献 [23] 提出一种分层控制方法:上层为用于运动控制的 MPC算法,下层引入强化学习在兼顾经济性与车辆稳定性的前提下进行控制分配。文献 [24] 进一步在控制分配中考虑了驱动单元故障。
基于上述讨论,本文针对驱动单元存在性能变化的分布式驱动智能车辆,研究一种基于强化学习的运动控制问题。首先构建了一种分层运动控制结构,该结构由上层控制器与下层控制分配算法组成。随后,采用DDPG算法以缓解驱动单元性能变化带来的影响。区别于已有研究[24]直接将强化学习与故障估计结合进行扭矩分配的方法,本研究利用强化学习计算补偿扭矩,无需依赖故障识别过程。
本文的主要贡献概括如下:提出了一种面向驱动单元性能变化故障的分布式驱动车辆基于DDPG算法的运动控制新框架。将基于DDPG的算法集成到传统分层运动控制结构中,可以在不依赖故障识别的情况下提升控制性能。通过将基于强化学习的控制器与既有的控制策略相结合,平衡了车辆稳定性与控制器对时变故障的适应能力。并通过仿真与硬件在环实验对所提出的框架进行了验证。
本文其余部分组织如下:第Ⅱ节建立了分布式驱动车辆动力学模型和驱动单元性能退化模型;第Ⅲ节介绍基于控制分配的分层运动控制架构;第Ⅳ节给出基于DDPG的强化学习补偿方法;第Ⅴ节通过仿真与硬件在环实验进行验证;第Ⅵ节给出本文结论和未来工作。
Ⅱ 问题构建与系统建模
A.面向控制的车辆运动学模型
在本研究中,主要关注平面运动的纵向、侧向和横摆动力学。地面车辆的纵向动力学可建模如下:
其中,为车辆纵向速度,为整车质量,为全部驱动单元提供的纵向合力,为空气密度,为车辆空气阻力系数,为车辆迎风面积,为滚动阻力。
针对分布式驱动车辆的横向与横摆运动动力学,本文采用单轨模型,其形式为(见文献[26]):
其中, 表示车辆质心侧偏角,表示横摆角速度;和分别为前轴与后轴轮胎侧偏刚度;为前两轮转向角(假设前两轮等角转向);为车辆绕垂直轴的转动惯量;为由各驱动单元纵向力共同产生的外加横摆力矩;和分别为质心到前轴、后轴的距离。
定义驱动单元输出向量,其中表示第 个驱动单元的扭矩输出,并定义广义控制输入向量为。因此,广义控制输入可由计算得到,其中
为车辆轮距,为车轮的有效滚动半径。
B.分布式驱动单元模型
目前,分布式驱动车辆中轮边驱动与轮毂驱动单元均被广泛采用。典型的驱动单元由永磁同步电机、机械减速器以及电机控制单元构成,如图1所示。
图1. 分布式驱动单元的组成。
理想情况下,车辆中的各个驱动单元应具有一致的机电特性。然而在实际机电系统中,诸如永磁同步电机与电机控制单元过热、以及机械减速器的机械磨损等现象都会引起驱动单元的性能差异。
永磁同步电机的扭矩控制通常采用磁场定向控制(FOC),从而获得电机输出扭矩。机械减速器(通常为定轴齿轮箱或行星齿轮机构)以恒定传动比降低转速并放大电机输出扭矩。其输出轴扭矩 可表达为:
其中,为机械减速器的机械效率。
在本文中,考虑驱动单元退化后,第个电机的实际输出扭矩为:
其中,为第个电机的实际输出扭矩,为退化系数,理论上取值范围为0到1。
需要指出的是,这类性能差异通常具有时变性、不确定性与非线性特征,使其难以定位与检测;当分布式驱动单元数量增加时,精确检测与补偿会变得更加困难。因此,有必要开发一种能够自动补偿不同驱动单元性能差异的智能自适应算法。
Ⅲ 基于控制分配的分层式运动控制
A. 传统分层控制架构
对于分布式驱动车辆的运动控制而言,纵向速度与车辆横摆率是最关键的车辆状态量,因其在自动驾驶与辅助驾驶场景中会直接影响车辆行驶轨迹。因此,本研究将这两个状态量定义为车辆运动控制的跟踪目标。
由于需要跟踪的状态只有两个,但车辆上存在多个相互独立的驱动单元,分布式驱动车辆属于典型的过驱动系统。因此,本文采用一种包含控制分配的经典分层控制架构来实现平面运动控制,如图2中虚线框所示。该分层控制器由参考模型、高层跟踪控制器以及控制分配模块构成。参考模型首先根据驾驶员指令或路径规划输入计算期望纵向速度与期望横摆角速度。随后,高层控制器生成用于跟踪这些期望状态的广义控制输入。最后,控制分配模块将这些广义控制量分配为各个驱动单元的扭矩指令。需要强调的是,该传统框架默认不考虑驱动单元性能差异,即假设。
B. 参考模型
车辆纵向速度与横摆角速度的参考值,可以由自动驾驶模块的路径规划器直接给出,也可以根据驾驶员对方向盘与踏板的操纵来计算。期望纵向速度的计算表达式为:
其中,表示车辆初始速度, 是由驾驶员踏板决定的期望加速度。
期望横摆角速度 可取为单轨模型在稳态下的横摆角速度 [27],它由驾驶员转向输入、车辆速度以及车辆几何参数共同决定:
其中,和是根据车辆几何参数、并采用文献 [27] 中的方法计算得到的系数。
C. 上层跟踪控制器
为跟踪期望的纵向速度与车辆横摆角速度,可采用前文所述多种跟踪控制方法。本研究选取PI控制器作为纵向速度的基础跟踪控制器,其表达式如下:
其中,和分别是纵向速度PI控制的比例增益与积分增益。 此外,本文采用模型预测控制器(MPC)作为车辆横摆角速度控制的基于模型的控制器。MPC 问题定义为:
其中为状态向量,为待跟踪的期望状态(期望侧偏角取0);为控制输入; 表示控制输入增量; 为松弛因子序列,用于避免优化问题可能出现不可行。 表示在初始条件、映射 与 给定时,对状态的预测; 为预测时域长度。非线性映射 按照式(2)定义。另外,与分别表示相应变量的最小值与最大值。
D. 过驱动系统的控制分配
当跟踪控制器给出广义控制输入 后,需要一个控制分配模块将其分配为各个驱动单元的扭矩指令。在多种控制分配方法中,本文采用基于二次规划(QP)的控制分配方法。
为以最小功率实现广义控制输入,定义代价函数如下:
其中,为用于在“分配效果”和“控制输入大小”之间进行权衡的加权因子;和为对角加权矩阵,构造如下:
其中, 和为可调参数,用于调节和的的偏差容忍度; 为第个车轮的法向载荷,其计算参考文献[28]。的设计目的是尽可能充分利用各车轮的附着裕度。 在上述定义基础上,基于 QP 的控制分配最终可表述为:
其中, 为控制器采样周期;和分别为各驱动单元扭矩上限与下限;和为驱动单元扭矩变化率限制; 表示输入增量。本文选择文献[29]中的方法求解该 QP 问题,原因是其在计算开销方面具有优势。
Ⅳ 基于强化学习的增强型运动控制设计
A.强化学习增强的运动控制算法
在经典的分层运动控制器中,驱动单元的输出变化无法被检测并进行补偿,因此跟踪性能难以得到保证。为解决该问题,引入一个强化学习智能体,以增强系统应对驱动单元性能变化的能力。所提出的强化学习增强运动控制架构如图2 所示。该智能体被专门设计为与经典分层控制器协同工作。智能体的任务是通过观测分层控制器与车辆状态,生成合理的校正扭矩。在观测到反馈状态并计算奖励后,智能体为每个驱动单元确定扭矩校正量 , 并将其叠加到由基于QP的控制分配算法求得的扭矩指令上。因此,域控制器发送给各驱动单元的最终扭矩指令 可表示为:
其中,为第个驱动单元的最终扭矩指令;为由基于 QP 的控制分配所确定的扭矩指令;为第个驱动单元的扭矩校正量,由智能体推理得到。
图2. 分布式驱动车辆的运动控制架构。强化学习增强方法在传统分层控制基础上进行决策并添加补偿。
B.强化学习智能体的设计
从强化学习智能体的视角来看,环境由车辆本体以及经典分层式运动控制器共同构成。因此,状态空间应包含两类信息:其一是与车辆平面运动状态相关的变量,即车辆纵向速度,横摆角速度 ,质心侧偏角 ,车辆纵向与横向加速度,以及前轮转角 ;其二是与经典分层控制器输出相关的变量,例如上层控制器的跟踪误差,以及由控制分配模块确定的各驱动单元扭矩指令。综上,状态空间定义为,其中为纵向速度跟踪误差, 为横摆角速度跟踪误差。动作空间定义为各驱动单元的扭矩修正量:。
在智能车辆的平面运动控制中,我们期望车辆运动状态能够跟踪驾驶员或运动规划模块给定的期望值。因此,在训练过程中,强化学习智能体的奖励函数设计为
其中, 和用于平衡纵向速度与车辆横摆角速度的跟踪误差。
DDPG 是一种面向连续动作空间的确定性强化学习算法,与分布式驱动汽车的扭矩补偿控制需求高度匹配。DDPG 通过采用 actor–critic 结构、经验回放以及目标网络软更新,显著提升训练稳定性与收敛速度。此外,还引入噪声注入、动作裁剪等策略以增强智能体的探索能力。通过对现有强化学习方法的对比分析,本文选择 DDPG 用于自适应扭矩补偿。
Actor 与 critic 神经网络的结构与训练方法如图3所示。两者均以序列输入层开头,序列长度设为 20,其余部分由全连接层与长短期记忆(LSTM)层构成。Actor 与 critic 的学习率分别设为 0.0001 和 0.001。为确保动作输出落在预设范围内,actor 网络末端设置缩放层。Actor 网络将状态序列映射为动作,并由车辆执行,从而观测到新状态 与奖励 。Critic 网络通过为每个动作赋予价值来评估 actor 的表现。训练时,经验首先存入容量为 的回放缓冲区,再随机采样小批量经验来更新两个网络参数;小批量大小设为 64,最大训练回合数为 1000。
图3. 本研究采用的DDPG算法网络结构。
Actor 与 critic 的权重分别按照策略梯度与损失函数进行更新(参见文献 [25])。损失函数采用 L2 正则化以避免过拟合。训练过程中,向动作加入白噪声以促进对未知动作空间的探索:早期使用高方差噪声以鼓励探索未尝试的扭矩补偿策略;随着训练推进,噪声方差逐步衰减以更侧重对已验证动作的利用。噪声方差更新为:
其中,是噪声方差衰减率,为第个回合的噪声方差,且。
Ⅴ 实验结果和分析
A.训练过程
本文在 MATLAB/Simulink 环境下开发了强化学习增强控制策略与车辆动力学模型,并使用 RL Toolbox 与 Vehicle Dynamics Blockset 作为支持。为提升训练的便捷性与效率,选取一个车辆模型作为分布式驱动车辆的被控对象。车辆关键参数为:质量,横摆转动惯量 ,前轴到质心距离,后轴到质心距离 , 轮距 , 空气阻力系数 , 迎风面积。每个驱动单元的最大驱动扭矩设为 ,最大制动扭矩设为。
在训练过程的每个回合中,将驱动单元的性能变化建模为随机功率退化。为模拟未知的性能退化(可能影响部分或全部驱动单元),将每个驱动单元的扭矩输出乘以一个相互独立的随机值,其范围为 0.5 到 1。需要注意的是,真实工况下驱动单元的退化系数变化较慢。由于单次仿真时长较短,退化系数在不同训练回合之间变化,从而保证场景多样性;而在同一个回合内,某一驱动单元的退化值保持不变,但不同驱动单元之间的退化值可以不同。这样做旨在更真实地模拟现实条件,并为训练过程提供更鲁棒的样本集合。为覆盖足够多的驾驶工况/操作动作,本文选取不同的加速与转向操纵来构建训练集。
期望纵向速度参考采用不同变化率的定速巡航曲线与加速曲线,并遵循式(6)的方法生成。每个训练回合中,期望加速度 在[0,5] 范围内均匀分布;训练过程中,最大期望纵向速度约束为 。类似地,为提高训练复杂度,期望转向输入设计为恒定转向、斜坡转向与正弦转向三类曲线:
其中,对所有为初始转角,为转角变化率, 为幅值,为频率,为相位。参数 由均匀分布随机变量生成,其上下界由实际转向执行器的物理限制给出。每个训练回合中,将不同的速度曲线与转向曲线随机组合,以提供足够的仿真场景。
本文选择 ADMM 算法作为 critic 与 actor 网络的优化器。经过1000个训练回合后,单回合奖励与平均奖励的变化趋势如图4所示。平均奖励在约200个 回合后显著提升,并从约第300个回合起收敛到稳定水平。出现平台期的原因在于:主要控制输入主要由分层控制器决定,而强化学习智能体仅提供小幅修正;这些修正的有效性将在下一节中展示。
图4. DDPG 强化学习智能体训练过程中的奖励曲线。
B. 性能验证与结果分析
如 Mazzilli 等人[5]所指出,车辆运动控制的性能可以通过能够激发显著瞬态或非线性效应的操纵工况来有效评估。典型的评估工况包括正弦扫频(ISO 7401)以及双移线(DLC,ISO 3888-1)。其中,正弦转向工况(在加速过程中施加正弦输入)已经被纳入训练数据集。因此,我们选择未包含在训练数据集中的双移线工况来验证训练后强化学习智能体的性能与泛化能力。
在 MPC 问题中,车辆的实际侧偏角与横摆角速度满足如下约束:
其中,为参考横摆角速度序列。考虑到车辆执行器能力,控制输入的约束设定为:
在仿真中,我们选取驱动单元性能退化系数为, , , 。期望纵向速度设为20m/s 。图5对比了强化学习增强运动控制器与传统 MPC、PI 控制器(其形式与式(8)中的纵向控制器类似)的跟踪结果。可以观察到,强化学习增强控制器的表现明显优于传统分层控制器。图6给出了四种控制算法在双移线工况下的跟踪误差对比。由于双移线工况不在训练集中,该对比进一步体现了强化学习智能体对未训练新工况的泛化处理能力。仿真结果表明,强化学习增强控制器能够取得更小的跟踪误差,从而验证了其有效性。
图5. 双移线测试中控制器的性能对比。
图6. 双移线测试中的跟踪误差对比。
图7展示了在双移线工况下:由基于QP的控制分配计算得到的四轮扭矩控制量, 以及由智能体计算得到的扭矩修正量。图8给出了发送至四个车轮的最终扭矩指令。图8中的蓝色实线表示强化学习增强控制计算得到的结果,红色虚线表示由于四个驱动单元存在不同性能变化而导致的实际输出扭矩值。由这些图可以看出,智能体生成的扭矩修正能够有效补偿扭矩控制指令的性能变化影响。
图7. 双移线测试中的扭矩变化。上图:由控制分配生成的扭矩指令;下图:由强化学习智能体生成的扭矩修正量。
图8. 双移线测试中的跟踪误差对比。双移线测试中各车轮的期望扭矩与实际扭矩曲线:左上至右下依次为左前轮、右前轮、左后轮、右后轮。
为进一步展示所提控制算法在不同性能变化条件下的控制效果,文中随机选取了五组不同的性能退化系数(见表I)。并在双移线工况下对强化学习增强控制与传统分层控制的效果进行比较。表II给出了在这五组退化系数下,两种控制算法横摆角速度跟踪误差的均方根值。与传统分层控制器相比,所提出的强化学习增强控制具有更小的误差,控制性能得到显著提升。
表Ⅰ 各组驱动单元的退化系数设置
表Ⅱ 五组仿真中车辆横摆角速度的均方根跟踪误差
C. 实时部署与硬件在环实验
本节将所提出的强化学习增强算法部署在VCU上,以验证其在嵌入式控制系统中的可行性与有效性。此外,还结合已部署的VCU与 dSPACE 仿真器开展 硬件在环实验。实时部署与硬件在环实验的平台架构如图9所示。
图9. 实时部署与硬件在环实验的平台架构
所使用的VCU 基于德州仪器的高性能双核数字信号处理器 TMS320F28379D。在本文中,使用其中一个 CPU 核来执行所提出的算法。MATLAB/Simulink 的 Embedded Coder 支持包被用来将强化学习算法转换为可执行的 C 代码。
硬件在环实验验证在由 Carsim RT 软件与 dSPACE 仿真器构成的平台上进行。Carsim 车辆模型运行在 dSPACE 上,仿真步长为 1ms ; 而本文研究的控制算法部署在VCU 上,控制步长为10ms。VCU 与 dSPACE 仿真器之间通过 CAN 总线通信:仿真器更新车辆状态,VCU 计算控制指令。为便于后续分析,使用 CAN 接口卡记录数据。在硬件在环实验中,采用72km/h恒速的单移线工况来评估算法性能;同时,退化系数设置为与仿真中相同。图10所示的实验结果表明:该算法在真实嵌入式控制单元的实时应用中仍能保持优秀的控制性能。
图10. 硬件在环实验中车辆状态的变化。(a) 车辆纵向速度;(b) 车辆横摆角速度 通过调试工具可以测量并分析所提算法在 DSP 上的计算负载。分层控制部分与强化学习智能体部分的资源消耗被获取并在表III中进行了对比。
表Ⅲ 所提算法的计算资源消耗
分层控制模块平均耗时,主要原因是求解基于QP 的控制分配时采用了迭代定点法;其内存占用也主要由该方法的计算缓冲区构成。强化学习智能体模块平均耗时 ,主要源于 actor 网络的浮点运算,其参数存储需要264KB内存。所提算法的总计算时间小于 5ms 。考虑到车辆运动控制的典型控制步长为10ms,这样的计算开销是可接受的,因此该算法可在当前主流 VCU 上实现。对于配备专用神经网络处理单元的域控制器,运行时间还可进一步降低,从而允许使用层数更多、神经元更多的更复杂神经网络来提升控制性能。
Ⅵ 结论和未来工作
本文通过展示强化学习技术在应对性能波动和提升控制能力方面的潜力,推进了分布式驱动智能车辆的运动控制研究。针对驱动单元性能变化带来的运动控制挑战,我们采用强化学习技术予以解决。通过分析驱动单元的性能波动特性并将其纳入车辆动力学模型,我们构建了分层运动控制架构作为先验控制分配方法。将深度确定性策略梯度算法融入该架构后,有效消减了驱动单元性能波动对系统的影响。本框架中强化学习控制与先验控制策略的结合,实现了车辆稳定性与参数不确定适应能力之间的平衡。实验结果表明,基于强化学习的控制器能有效应对多种行驶场景,并在变化工况下显著提升轨迹跟踪性能。此外,硬件在环实验验证了该强化学习算法具备实时部署能力,且控制性能表现良好。
广告 最新资讯
-
直播|经纬恒润:车载光通信的开发与测试
2026-01-22 18:49
-
车载光通信走向实车验证
2026-01-22 18:48
-
解析GB/T 47001-2025智能网联汽车数字身份
2026-01-22 14:48
-
解析 GB 39901-2025:轻型汽车自动紧急制动
2026-01-22 14:47
-
基于GB 24407-2025的专用校车安全技术深度
2026-01-22 14:47





广告


























































