综述：自动驾驶应用中知识增强的机器学习方法（二）

2022-05-16 00:12:55· 来源：计算机视觉深度学习和自动驾驶作者：黄浴

继续介绍剩余章节：知识迁移，从算法角度对任务进行了研究，是将隐含知识（通常通过神经网络的权值或表征形式捕获和表示）转移到某个目标感兴趣领域的学习策略。

继续介绍剩余章节：

知识迁移，从算法角度对任务进行了研究，是将隐含知识（通常通过神经网络的权值或表征形式捕获和表示）转移到某个目标感兴趣领域的学习策略。这里的主要目标之一是在目标域只提供少量数据的情况下学习可靠的模型。

对选定预训练的网络的层进行微调，可归因于迁移学习。虽然这个概念侧重于适应单一目标任务，但在持续学习中，目标是稳定地适应各种连续目标，而不会忘记以前的任务。在元学习中也有类似的想法，即在一个偶尔进行（episodic）训练过程中收集来自多个任务的经验，改进学习策略。

5.1 迁移学习：作者是Wasserrab, Keil

深度学习近年来取得了很大的发展势头，现在已经成为许多应用中事实上的标准方法。用例范围从语音识别到图像处理或自动驾驶。尽管取得了巨大的成功，深度学习算法仍有一个严重的缺点，即它们依赖大量标注良好的数据来实现性能。现实中，收集这样的数据集变得非常昂贵和耗时。除了数据集的获取外，处理如此大量的数据也是一个重大挑战，因为它需要大量的算力和电力。

迁移学习是一种试图通过减少训练数据量、同时保持甚至提高性能来解决这些问题的技术。因此，它已成为许多深度学习模式的组成部分。简单地说，这种技术从以前的任务中学到的中间表示形式获取知识，并将其应用于新任务。这种方法的一个巨大优势是，任何开发人员都有可能利用数据中心或Google等大公司的超级计算机优化参数，而不需要自己的可怜资源。

基于网络的迁移学习

DL背景下的迁移学习分为四类：基于实例、基于映射、基于对抗的和基于网络。第一种方法从源域中选择特定的数据点，并将它们添加到通过权重调整的目标域中。第二种方法将两个域合并到一个数据空间中，其中的实例彼此相似。第三种方法旨在通过使用对抗技术找到同时适用于源域和目标域的表示。最后，基于网络的深度迁移学习采用在源域预训练的模型，并在目标域重复使用。

基于网络的迁移学习背后的直觉，源于神经网络的本质。通常，前几层捕捉图像中的边缘等低级特征，而较高的层则关注更复杂的细节。由于预训练模型的低级特征不是领域特定的，只需要将这些特征用于不同的任务，并在其上训练新模型。

实际上，这是通过用新层替换预训练网络的最后一层来实现的。然后，修复所有基础层，以确保不会忘记之前获得的知识。这种方式，只有新的分类器最初会针对预期任务进行训练。根据新用例怎样的不同，模型还可能从进一步的微调中受益。这意味着不必保持预训练的参数不变，其只用于初始化并包含在训练过程中，这样之后也可以适应新问题。

然而，为了确保学习到的低级特征仍然保持不变，微调的学习率通常设置得相当低。在过去的几年里，迁移学习在计算机视觉任务中特别流行。如今，诸如ResNet、VGG、Inception或DenseNet等流行的CV模型通常在大型图像数据集上进行预训练，以生成作为特定任务基础的通用图像特征。

应用

模拟仿真数据可用来对模型进行预训练，获取关于真实世界的知识。特别是在大型项目中，如自动驾驶技术的开发，仿真扮演着至关重要的角色，因为它大大缩短了培训时间。此外，通过模拟，算法开发可以关注自动驾驶中最有趣的情况，使模型能够更轻松地处理罕见的极端情况。

自动驾驶的规划阶段是寻找自车在特定情况下遵循的最佳轨迹。其中一个最相关的例子是换道和超车场景，在环境的其他部分中，必须考虑当前和相邻车道的交通，以找到潜在的时间段和轨迹，从而在满足运动学和安全约束的情况下通过前面的车辆或障碍物。

最近提出的大多数自动驾驶车控制方法都使用了势场（potential fields）、细胞分解（cell decomposition）、最优控制或模型预测控制（MDC）等方法。由于这些策略是实时优化问题，也就是说，它们不属于深度学习的范畴，因此上述基于网络的深度迁移学习在这里不适用。然而，除此之外，还有一些基于学习的方法来控制自动驾驶智体，其包含了以前学习过的知识，主要是用于轨迹规划的（深度）强化学习或（半）监督学习方法。

对于自动驾驶而言，目前的主要挑战之一仍然是缩小模拟与真实之间的差距，其中迁移学习起着重要作用。由于几乎所有依赖数据的AI问题都是如此，迁移学习肯定有助于解决许多自动驾驶用例。然而，应该提到的是，只有当车辆控制策略实际从数据中学习时，迁移学习才能应用于轨迹规划。

5.2 持续学习：作者是Wirth, Rudolph

持续学习旨在连续学习多个任务的模型，而不会降低之前任务的性能。它与迁移学习密切相关，因为也重用已经训练过的模型，作为学习新任务的起点。然而，与迁移学习相比，持续学习旨在保持学习模型的重要部分完好无损。因此，持续学习并不是用过去的任务来（仅仅）改进新任务的结果，而是创建一个统一的模型来解决所有任务。

从技术上讲，持续学习不允许对模型进行任意更改，只允许进行不会导致过去任务性能下降的更改。因此，最重要的方面是确定模型的哪些部分与观察结果相关。大多数持续学习方法都是基于这样的假设，即确定模型参数与预测的相关性是有意义的。例如，Synaptic Intelligence （SI）通过参数在损失的贡献来确定参数的重要性。

另一种方法是，在不降低已观察任务性能的情况下，近似地计算可以改变的权重。对于这些方法，通过在训练期间直接学习这些分布的均值和方差，将标量参数替换为参数概率分布，例如高斯分布。然后假设可以根据Fisher矩阵或Kullback-Leibler（KL）发散度限制可接受的参数变化。另一个最新的方法是基于梯度算法，通过直接操纵梯度来更新权重，从而缓解训练中的灾难性遗忘（CF）。

已知的持续学习类型：

增量域学习：假设输入和输出空间相同，但数据分布不同
增量课堂学习：输入空间相同，但输出空间不同；每个任务涵盖同一个多类集的一个子类；数据分布也可能不同
增量任务学习：输入空间相同，但输出空间不同；每个任务都包含一组不同的预测目标；数据分布也可能不同

贝叶斯持续学习

几乎所有的贝叶斯持续学习方法都遵循相同的原则：

在学习任务N上的参数权重分布
使用（部分）权重分布作为预条件
为任务N+1的训练增加一个正规化项，会惩罚与预条件的距离

有些方法不在权重空间中运行，而是在函数空间中运行。然而，差异更多地是围绕（神经网络）模型的结构。根据贝叶斯连续学习算法的以下特性，可对其进行分类：

近似值：使用哪种权重分布的近似？
前置条件：如何获取近似值？
正则化：参数分布如何针对预条件进行正规化？
更新模式：看见的任务中，哪些信息被保存？

此外，一些方法不适用于纯粹的增量方案，即在最后一个模型中捕获所有历史任务的显式信息。这些方法合并了特定任务的模型，需要额外的计算步骤。另一方面，有些方法可以完全在线工作，这意味着除了最新模型之外，丢弃其他所有模型的信息。此外，一些方法使用重放缓冲（replay buffer），这意味着部分训练数据被保留和重用。

总结见下表：

持续学习的梯度法

基于梯度的方法是持续学习领域的一个最新发展。其主要思想是：

将以前任务的一小部分样本保存在内存中（类似于重放缓冲）
计算当前任务的样本相对于重放缓冲样本的梯度并约束

这样避免了以前任务（由重放缓冲表示）的结果因为样本丢失不会增加而退化。

一种方法称为梯度偶发记忆（GEM，Gradient Episodic Memory）。这里的主要思想是将内存中样本的梯度和当前新样本梯度之间的角度保持在90度以下，以避免权重自适应在可能使前一个任务精度更差的方向上。这是一个在训练阶段求解的优化问题，想找到这样的梯度，其不违反记忆约束且最接近当前样本原始梯度。

由于解决优化问题的运行时间相当长，因此引入了平均梯度偶发记忆（A-GEM）。通过仅用随机采样的子集而不是内存所有样本来约束梯度，在较低的运行时间下可提供类似的良好结果。其中利用任务描述符来改进零样本学习技术。

基于混合随机梯度（MEGA）的新方法，可以对GEM和A-GEM方法进行统一。泛化对问题重新表述，揭示一个事实，即可以通过一个参数在当前任务和过去任务之间进行加权。基于这一知识，新方法通过适当设置参数，利用损失信息自动平衡这些任务，即如果损失较高，则侧重于当前任务；如果损失较低，则侧重于过去的任务。

最近梯度投影记忆（GPM，Gradient Projection Memory）被引入，其在每个任务结束后，只通过SVD计算一次梯度子空间，并存储一个基。对于当前任务，梯度投影到与该投影子空间正交的空间中。该算法的一个特点是，它不需要在内存中保存过去任务的样本，只需要保存子空间的基。这种方法减少了所需内存并提高了隐私性。

下表给出概述：

更新模式

大多数持续学习算法都以增量更新模式工作。也就是说，每个新模型都适用于预测所有已看到的任务，并针对所有预条件或所有这些旧任务的重放缓冲样本进行正则化。因此，这些算法需要为所有任务存储预条件和重放缓冲，这是一种内存开销。与此不同，在线方法只使用上一个任务的解决方案。一个特例是Progress & Compress算法，独立地训练每个任务（可能由最后一个解决方案初始化），但通过在线方式对预条件进行正则化来计算联合模型。

重放缓存

一些算法将旧任务的数据重新使用，作为一个重放缓冲。这意味着，训练数据的一个子集被用作“关键点”，在此假设，用这些数据再训练（或约束）将确保在已看到任务上的表现。因此，所有数据都需要存储，但只有小部分用于持续训练。

选择重放数据点的方法试图获得有趣的元素，无论是通过聚类中心的表征，还是通过（模型）重建误差或不确定性估计其对预测质量的重要性。基于梯度的持续学习方法通常只使用所有训练数据的随机采样子集。

参数近似

贝叶斯持续学习方法通常需要近似模型的后验参数分布。近似在表征能力和运行时要求上有所不同。

最常见的近似是平均场（MF）近似，只独立地覆盖每个参数分布的均值和方差。全协方差（FC）近似值也可以捕获分层的协方差，而Kronecker Factorization（KF）是全协方差矩阵的近似值。为了学习参数分布，通常使用变分推理（VI），通过梯度下降学习均值和（共）方差。

Laplace approximation可以在学习确定性模型后进行计算，但计算成本更高，且不能很好地扩展。只有少数方法使用特定算法的方法。

预条件

预条件确定参数近似所捕获的信息存储形式。这隐含地定义了学习额外任务的正则化基础，因为正则化器通过惩罚预条件和同一空间中当前模型之间的距离。因此，正则化用给定的距离函数。

Fisher矩阵是一个常见的预条件，它是损失函数二阶导数接近最小值的近似值。其计算来说，梯度是足够的，但是这种方法会导致一些计算开销。然而，该预条件通常与后验分布的Laplace approximation相结合，这需要一个Hessian矩阵近似，在计算上相当昂贵。

另一种方法是直接使用后验权重分布的均值和方差，可通过变分推理“在线”学习。然而，这种情况下，常见的L2正则化器通常不适用。除了下三角Cholesky矩阵外，几乎所有在用的预条件，一个实质性限制是忽略协方差。然而，这种限制并不是预条件或正则化带来的问题，而是因为参数近似的尺度化问题。

正则化

正则化的基本思想是确保与已观察任务相关的参数值保持不变。因此，重要的是要考虑所使用的预条件中包含哪些信息。Fisher信息矩阵是给定损失函数（和示例）参数中所包含的信息度量。因此，Fisher矩阵中数值的大变化也意味着参数中包含的信息大变化，所以，对这些数值进行L2正则化就足够了。

另一种选择是后验分布的Kullback-Leibler（KL）发散度。如果预条件的方差很小，则均值的相关变化将导致较大的KL值。然而，当方差较大的数值平均改变时，KL损失将保持较小。因此，可以确定精确值（低方差）的参数保持不变。

约束

关于基于梯度的方法，制定具体约束存在不同可能性，这些约束用于避免使网络性能更差的更新。早期算法只是将实际使用梯度限制为与旧任务梯度的角度小于90度，或者根据差异进行正则化。现代方法将梯度投影到满足某些条件的子空间中，比如与先前任务的正交性。

函数空间正则化

大多数持续学习方法在权重空间中正则化，假设这足以保持旧任务的性能。然而，函数空间正则化试图为旧任务保留函数（输出）值。这是不可能直接进行计算的，因为它需要存储（并重用）所有训练数据。然而，用核神经网络（kernel neural networks）可以进行近似，因为这些方法捕捉到完整的核模型参数输出分布。

然而，完整的核矩阵使用通常在计算上过于昂贵，因此通常用诱导点（inducing points）的变分分布（variational distributions）。有了关于核矩阵的知识，以及可能来自过去任务的变分分布，就有可能计算出新模型和旧模型在给定点集上的输出分布差异。这需要存储过去任务中的训练数据（子集）。

应用

关于自动驾驶，增量域学习是一个兴趣点。它允许增量学习，可以使用新数据改进已经学习的预测值，而无需从头开始训练。然而，在知识集成方面，增量领域学习将多个知识源集成到一个联合模型中。

知识来源可能与物理知识、专家知识、道路规则或观察示例有关。例如，可以训练一个预测所有车辆可能出现或行驶到达位置的模型，然后持续学习方法学习观察到的车辆示例。那么联合模型可以正确预测车辆的所有可行位置（概率较低），同时根据观察示例，强调最有可能出现这种情况的位置。

5.3 元学习：作者是Wörmann, Sagel, Shen

智能行为的一个因素是能够毫不费力地将技能和知识从一项任务转移到相关任务。虽然人类通常表现出这种能力，例如，人类只能从几个代表性的例子中得出关于某些目标类的概念，但数据驱动的AI方法通常需要大量样本才能完成预期任务。

元学习（meta learning，也称为learning-to-learn）通过训练一个模型来解决这个问题，该模型可以在遇到多个任务后提高其学习性能。在这种情况下，识别同类图像或预测机器人在特定环境中的轨迹可以被视为一项任务。

元学习的目标是以这样一种方式更新训练算法，这样模型能够轻松地适应新任务，例如，仅从少样本场景的几个未见过的实例推断类标签，或在修改条件后的环境中规划轨迹。

最终，这种学习方法允许算法重用某些在不同任务之间共享的结构，提高其在类似任务的性能，而完全从头开始学习（learn from scratch）很难解决这一问题。因此，通过元学习指导训练阶段可以被视做是知识隐式地集成到数据驱动模型。数据的准备和组织，以及加入元目标，是将现有体系结构转换为知识系统的关键。

元学习的主要应用领域之一是少样本学习（few-shot learning）问题，这在许多现实计算机视觉环境中具有很高的实用价值。少样本学习的主要目标是仅从有限的数据量中学习可靠的模型，以便模型能够很好地推广到未见或代表性不足的实例。

元学习通常用于获取包含多个类共享信息的类无关（class-agnostic）特征。然后，基于特定类的信息，通过调制这些特征可实现自适应。在少样本学习方法中，单样本或少样本分类的目标是仅从一个或几个标注实例中学习一个类。

少样本元学习，通常涉及一组N个支持（support）和查询（query）对，构成一个基集B ={（Si，Qi），i=1，...，N}。N对中的每一对都可以被视为一项任务，其中元训练在于，在给定支持下更新该模型。任务的性能，通过查询来衡量。

遇到多个任务后在更新模型时，学习算法收集有关如何学习的知识，以便在元测试（meta-testing）期间，可以用相同的学习算法在一个新的、未见的（Stest、Qtest）对的支持集上训练模型。即使Stest的样本数很小，如何学习的知识允许算法学习一个模型，其类推到Qtest的样本。

作为另一个分支，最近出现了少样本检测，重点是仅从少量标注样本中识别和定位图像中的多个目标。少样本检测处理只有几个边框标注可用的情况，而不是缺少类标签。

meta-YOLO，将特征图学习与重加权模块相结合。在第一阶段，从基类中学习泛化的元特征（meta features），可简单地适应新类。随后的重加权方案，通过调制特征系数将特定类别的特征信息，从少数支持图像迁移到查询图像的元特征。与输出类标签和边框的检测预测模块一起，可以对整个检测器进行端到端的训练。

另一种方法，元学习的（meta-learned）类特定代码生成器，增强单阶段目标检测模型CentreNet，实现增量少样本检测。基于R-CNN的两步目标探测器，也有对应的元变型。鉴于最初的Faster/Masked R-CNN实现所生成的特征，元学习应用于ROI特征，其中背景和潜在目标已经分离。

目标检测通常需要定义锚点或识别可疑区域（通过RPN）。为了在不需要中间区域提议（region proposal）情况下实现端到端的学习，meta-DETR，用于少样本目标检测的元学习与Transformer结构相结合。

为了提高数据驱动分类或检测模型的泛化能力，数据增强被用作预处理提高泛化能力。元学习还被用于自动化增强过程，以便模型能够有效地适应给定任务或数据集。

元学习的概念在强化学习（RL）的背景下也提供了有用的优势，RL已被应用于动态环境中的运动规划。特别是，关于目标（goals）、奖励（reward）或环境的元知识可以用来减少样本有效探索（exploration）策略方面的训练时间。

5.4 主动学习：作者是Werner

主动学习（AL）是一种迭代学习策略，结合了人/专家反馈。其想法是查询一些未标注的实例标签，为此创建新的标签实例，并根据新信息更新模型，然后交替执行。

在查询标签时，AL的优点是降低标注成本，而对新数据点的巧妙采样，模型的数据使用量比不知情采样（uninformed sampling）使用量要少。由于这些好处以及更好地估计模型不确定性的机会，AL是一个将知识整合到AI 训练过程中很有前途的策略。

查询标签需要存在一个所谓的未标记池，因此被称为基于池的采样，选择一个未标记实例或一批未标记实例并要求给予标签。另一种策略是生成新样本，称为选择性采样（selective sampling），前提是这些样本可以从现有的数据池或数据流中选择，这样学习者仍然可以在不浪费大量计算时间的情况下决定是否给予标签。

后一种方法也称为会员查询合成（membership query synthesis），如果根据下面列出的标准生成人工新实例，或组合抽象特征空间中的有效特征。

关键问题是，必须考虑哪些未标记的样本，对应地如何生成新样本，因为很明显，随机抽样效率不高，并且会导致较高的标注成本。有不同的采样范式，如基于不确定性/margin的采样，即从模型不确定的区域采样，对于分类模型而言，这意味着从决策边界（decision boundary）附近采样，或由委员会查询（query-by-commitee），其中一个调用不同的模型，并从模型最不一致的区域采样。

另一个范例是基于密度的采样，即从代表性区域进行采样，这是因为不确定性采样容易选择异常值（outlier）。其他范式考虑样本的信息度（informativity）/影响，这些样本通过预期模型变化、预期误差减少或方差减少等标准进行量化。

此外，主动学习不仅限于每次迭代查询单个未标注实例的标签，还可以考虑整批未标注实例。AL可用于AI训练中的知识集成，方法是在训练数据增加高损失的实例、即在目标识别、语义分割、人重识别（ReID）或跟踪等监督任务中模型不确定或预期模型变化或方差减少的情况。

此外，AL甚至可以通过考虑模型熵进入无监督任务。在知识提取或一致性检查任务中，在模型输出偏离现有知识的区域进行采样，调用主动学习。对于测试特定的训练模型，可以应用主动测试（active testing ），减少测试数据的标注成本。

AL可用于改进感知或规划模型的特定学习算法，不过AL的具体采样或选择范例有所不同。

数据驱动模型功能的解释和可解释性是通往可靠系统的重要先决条件。特别关注的是，神经网络学习的行为可理解的表征和形式化。所学决策模式和概念的提取和考虑，不仅会激发功能的最终验证，而且在开发用于安全-紧要应用的方法时也同样有用。

符号解释起着重要的作用，在近年得到了广泛的研究。为了更正式地检查神经网络的功能，规则学习已成为这方面最重要的方法之一。自然语言，是另一种超越规则的符号表达形式。

6.1 规则提取和规则学习：作者是Paschke, Wang, Krone, Bührle, Königshof

有几种方法，一个提取方法采用训练模型（例如分解规则提取）的内部结构，另一个方法将模型和提取的概念作为一个整体（教学和折衷规则学习）来获取新（符号）知识，还有一个归纳学习方法（例如归纳逻辑规划），从训练数据中学习规则。

训练神经网络的规则提取

近年来，DNN取得了显著的成绩。然而，DNN极其复杂的内部结构，在一些安全-紧要应用领域是不可接受的，如医疗诊断、工业过程控制和完全自主驾驶。人们提出了许多方法解释DNN。一种可行的方法是从神经网络中提取可理解的符号规则。

关于规则提取的研究可以追溯到90年代初，最初的目的是为基于知识的系统合成知识，发现神经网络的全部潜力。人们基本上认识到，在训练期间获得的知识编码为网络参数、激活函数和架构设计。知识可以以If-Then规则、M of N 规则、决策树、决策表等形式提取。

根据提取规则是否揭示神经网络的内部结构，可以把规则提取分为两个基本类，即分解（decompositional）法和教学（pedagogical）法。前者分析各层的激活函数和参数来提取规则，而后者通过映射输入输出关系来提取规则，就像神经网络所理解的那样，而不考虑内部结构。如图所示：上为分解法，下为教学法

除此之外，第三类可能是折衷（eclectic）法，是分解法和教学法的结合。

虽然神经网络已经得到了广泛的研究和应用，但对于从DNN中提取规则仍然缺乏研究。大多数提出的算法都是针对浅层神经网络的，原因有两个方面。首先，提取规则的数量与网络的深度成正比。其次，如果规则数量过多，规则的可解释性就会丧失。许多端到端神经网络直接应用于原始感官数据做输入的感知层面。如果将分解法应用于DNN的顶层，提取的规则将更容易理解。

分解法有助于理解DNN的分类过程。在自动驾驶的背景下，识别一个规则例外的原因可以提取人类可理解的知识。在路径规划和法律规则整合之前，应该正确预测形势的类别。在形式上，规则提取的任务定义如下：给定一个训练有素的神经网络和一个示例作为输入，任务的目标是对每个类尽可能找到描述输入层和输入层之间关系的规则集。

如前所述，在应用规则提取时，输入层不能是示例本身，而是NN中间层的特征。对于规则例外场景问题的分类，输入可以是不同检测器和传感器数据的结果，输出可以是一个或多个已定义用例的类别。

归纳逻辑规划

尽管基于深度学习的现代ML方法近年来取得了极大的成功，但它们仍然常常无法推广到看似简单的任务上。例如，给定足够的训练数据，一个标准的深度学习模型可以学习手写数字的less-than关系，但无法将其推广到以前未见的数字对。

归纳逻辑规划（ILP）是一套从给定示例学习逻辑规划的技术。ILP不是依靠统计机制，而是基于逻辑推理，同时融合了自动推理和知识表示的思想。这样，ILP程序通常能够从非常小的数据集进行泛化。ILP的另一个关键优势是其解决方案是可理解和可验证的。

虽然不同的ILP框架采用不同的策略来解决给定的任务，但大多数框架都同意以下ILP问题的定义，即一个ILP问题（B，E+，E−) 由以下数据组成：

B是一组背景假设
E+是一组正样本
E− 这是一组负样本

ILP的目标是构建一个逻辑程序（一个假设），与给定的背景假设一起，需要正样本并拒绝负样本。

在过去的几十年里，ILP取得了许多重大改进。如今，ILP系统可以学习递归程序，并根据背景假设发明辅助谓词。然而，大多数ILP框架都有一些共同的弱点。由于ILP将数据表示为逻辑程序，因此用户需要为此任务从一系列可用语言中进行选择。例如，Prolog是一种图灵完备逻辑编程语言，通常用于ILP。

Datalog是Prolog的一个子集，用图灵完整性换取效率和可判定性。与经典ML方法中的特征选择类似，选择合适的背景假设对ILP的成功至关重要。

传统ILP框架的主要缺点之一是无法处理错误标注数据。最近，有人试图将深度神经网络的优势与ILP的优势结合起来，用反映结论可信度的连续值代替绝对逻辑推理。

应用

在自动驾驶环境下，提取的符号规则揭示了神经网络的内部功能，神经网络可以通过识别关键特征及其重要性来解释场景分类任务的结果。此外，ILP可用于从给定的交通规则形式化推导出不成文的法律或行为规则。这些提取出来的知识可以随后被纳入法律或行为知识体系。

为规划的规则学习

规则学习的目标是根据观察的演示推断管理专家行为的约束。一个困难是规则推理问题定义不清——规则不是唯一的。此外，人类专家的演示有非常大噪声，即次优，甚至可能偶尔违反规则。

参数学习：规则学习的任务可以被定义为学习一个目标函数，其中包括违反规则的惩罚条款。事实上，“奖励函数是任务最简洁、可靠和可迁移的定义”。在这种解释下，可以使用行为克隆（BC）和逆强化学习（IRL）的方法。

6.2 结构化输出预测：作者是Hesels

模式挖掘用于发现数据库中意外且有用的模式。由此产生的模式是人类可解释的，因此对数据理解和决策非常有用。时间序列模式挖掘稍有不同，用于在高维数据中发现模式。通常，排序的片段（episodes）或序列被定义为连续集（serial），不是排序的片段或序列被称为并行（parallel），如果两者都是，则片段被命名为概括（general）。

6.3 法律域的NLP：作者是Griesche, Tran

之前关于知识表征学习和知识手工制作的章节强调了知识图和本体论是一种表示知识的可行方法。这些概念依赖于标注数据。对于较小的数据集和概念验证，可以通过人工标注或手工制作来实现。

然而，法律知识以规范、交通法规和法律的形式总结为大量不同语言的非结构化数据。自然语言理解（NLU）和自然语言处理（NLP）提供了处理大量法律数据的方法。

不过，对于法律域，还必须考虑其他挑战。处理法律文本和交通法规的计算模型必须考虑例外情况、规则冲突、开放结构和模糊性、规则变化以及常识知识的需要。因此，现有的NLP概念和模型必须针对特定域进行定制或训练，并且必须开发特定领域的解决方案。

最新技术表明，法律领域对自然语言处理的研究越来越活跃。对于自动驾驶，交通规则和规范中的交通规则和参数是最值得关注的。然而，交通法规和规范的NLP目前在很大程度上尚未探索。尽管有第一批NLP应用程序专注于分析软件和系统开发中的需求和技术文档（测试规范），但NLP的潜力并没有得到充分利用。

NLP可以在分析法律要求、发现不同国家交通法规和规范之间的相似性和冲突方面发挥重要作用。此外，NLP可以提供元数据，丰富不同来源的需求，例如解释模糊交通规则的法律注释。这可以在知识图或推理引擎中进一步处理，并支持软件开发过程，例如设计法律合规规划师。NLP方法也有可能支持编辑器将交通规则的形式化过程半自动化。

6.4 问答：作者是Qiu

问答（QA）是一项基于给定问题和相应上下文回答问题的NLP任务。作为通用AI的一项热门任务，该算法旨在理解上下文并掌握一些人类知识。更进一步，视觉问答（VQA）将其与计算机视觉任务相结合来扩展问答。

VQA任务旨在基于图像回答给定的问题。因此，VQA方法不仅需要具备语言理解能力，还需要具备图像推理能力。算法预测的答案被视为视觉场景中的知识。回答的问题越多，算法从图像中提取的知识就越多。

VQA任务通过监督学习解决：图像和语言特征提取器被应用到一对图像-问题的输入中。下一步是通过另一个网络发送图像-语言特征，获得最终的输出答案。将输出答案与真实标签进行比较，更新由上述三部分组成的整个网络。因此，各种VQA算法从以下角度研究不同的修改：

图像或语言特征提取；
图像和语言特征的融合；
最终答案的网络模型即预测。

由于VQA是从QA扩展而来的，所以像RNN或LSTM模型这样的语言模型被用作语言特征提取器和最终的语言输出。NLP模型的最新开发，都进一步部署在VQA模型中。对于图像部分，不同的卷积神经网络主干被广泛使用。

VQA问题中的一个关键问题是如何将图像特征与RNN或LSTM语言表示融合在一起。有两种模态特征融合方法：一种基本的方法是将图像特征和语言特征嵌入到公共空间的联合嵌入方法。其他方法应用注意机制来寻找与最终答案最相关的部分。人们认为，注意机制根据图像特征的空域位置，对其进行不同的重加权来增强性能。

由于Transformer已广泛应用于NLP甚至CV社区，VQA社区也在借助这一强大的框架寻求突破。最初Transformer是一个用自注意机制的序列-到-序列NLP模型。对于一个句子，Transformer编码器通过内积计算该输入句子中每个标记的相关性。这种关联矩阵被称为自注意矩阵。

在VQA任务中，Transformer结构取代了传统的NLP模型，如RNN或LSTM。而语言标记与图像特征单元之间的自注意由于其内积而提供了更强的语义。

另一个被称为弱监督目标定位（WSOL）的流行任务也与VQA有关。弱监督学习指的是一个训练过程，其中一个小数据集只有关于任务的部分信息（例如，类标签或边框）可用。

WSOL是指真实边框不足的目标检测任务。在没有边框标签的情况下，分类标记或语言查询有助于目标定位。标记语义耦合注意图（TS-CAM，Token Semantic Coupled Attention Map）首先将图像分割为一系列用于空域嵌入的patch tokens，然后重新分配patch tokens的类别相关语义，使其都能够感知目标类别。作为一项多模态任务，这些基于语言查询的WSOL问题与VQA任务有着密切的联系。

还有两章，继续。。。。。。

分享到：

下一篇：电驱动无级变速器ECVT前景分析
上一篇：综述：自动驾驶应用中知识增强的机器学习方法（一）

点赞 0 反对 0 举报 0 收藏 0 评论 0

汽车测试网V课堂
微信公众号
汽车测试网手机站

相关阅读

0 条相关评论

• 瓦力大作战｜轻科普——误码仪（BERT）架构及测试原理解析	• 为什么 HUD 合规真正“卡人”的不是参数，而是证据链
• 辅助驾驶撞扛树枝老人、撞环卫工人是预期功能安全应该覆盖	• 大推力直驱技术助力EPS安全测试，为你的安全出行 “保驾护
• 单机体积，双倍效能！激光切割机玩转“降本增效”	• 同步难？空间挤？这款双出轴电机，是你双十二的“必囤”硬
• 即刻探索8台机器人如何解放数百名工人！	• 考虑驱动单元性能变化的分布式驱动智能车辆强化学习增强运
• eVTOL/飞行汽车→低噪声气动设计与主动降噪控制策略1/3	• 比亚迪车辆避撞专利公布

综述：自动驾驶应用中知识增强的机器学习方法（二）

微信公众号

5.1 迁移学习：作者是Wasserrab, Keil

5.2 持续学习：作者是Wirth, Rudolph

5.3 元学习：作者是Wörmann, Sagel, Shen

5.4 主动学习：作者是Werner

6.1 规则提取和规则学习：作者是Paschke, Wang, Krone, Bührle, Königshof

6.2 结构化输出预测：作者是Hesels

6.3 法律域的NLP：作者是Griesche, Tran

6.4 问答：作者是Qiu

编辑推荐

最新资讯

联合国法规R73对货车侧面防护装置的工程化

联合国法规R72对HS1卤素灯摩托车前照灯的工

《汽车环境风洞雪模拟试验及评价方法》国

《汽车空气动力学与声学风洞流场校准规范

电池耐久试验方法的工程逻辑：SRC循环与多

综述：自动驾驶应用中知识增强的机器学习方法（二）

微信公众号

5.1 迁移学习：作者是Wasserrab, Keil

5.2 持续学习：作者是Wirth, Rudolph

5.3 元学习：作者是Wörmann, Sagel, Shen

5.4 主动学习：作者是Werner

6.1 规则提取和规则学习：作者是Paschke, Wang, Krone, Bührle, Königshof

6.2 结构化输出预测：作者是Hesels

6.3 法律域的NLP：作者是Griesche, Tran

6.4 问答：作者是Qiu

编辑推荐

最新资讯

联合国法规R73对货车侧面防护装置的工程化

联合国法规R72对HS1卤素灯摩托车前照灯的工

《汽车环境风洞 雪模拟试验及评价方法》国

《汽车空气动力学与声学风洞 流场校准规范

电池耐久试验方法的工程逻辑：SRC循环与多

《汽车环境风洞雪模拟试验及评价方法》国

《汽车空气动力学与声学风洞流场校准规范