首页 > 汽车技术 > 正文

QuadricFormer: 基于Superquadric的三维语义占用预测场景

2025-12-17 08:26:13·  来源:同济智能汽车研究所  
 

编者按:自动驾驶技术的快速发展,对3D场景感知提出了更高要求。传统基于体素的方法虽能精细刻画场景细节,却因计算冗余而难以满足实时性需求;而基于高斯分布的方法虽提升了效率,却受限于其椭球形状先验,难以灵活建模多样化几何结构。如何在保证感知精度的同时提升效率,成为当前研究的关键挑战。本文提出一种创新的解决方案——QuadricFormer,首次将几何表达能力更强的超二次曲面引入三维语义占用预测任务中。通过构建概率性超二次曲面混合模型,该方法以稀疏的基元实现对复杂场景的高效、高保真建模,并在nuScenes数据集上取得了性能与效率的双重突破。我们相信,QuadricFormer不仅为三维场景理解提供了新的技术思路,也为以视觉为中心的自动驾驶系统迈向实用化奠定了重要基础。本期特此编译推介,以飨读者。


本文译自:《QuadricFormer: Scene as Superquadrics for 3D Semantic Occupancy Prediction》

文章来源:arxiv2025


作者:

Sicheng Zuo1*, Wenzhao Zheng1*, Xiaoyong Han1, Longchao Yang2, Yong Pan2

作者单位:1Tsinghua University, 2 Li Auto Inc

原文链接:https://arxiv.org/abs/2506.10977

代码链接:https://zuosc19.github.io/QuadricFormer/


摘要:3D 占用预测对于鲁棒的自动驾驶系统至关重要,因为它能够全面感知环境结构和语义。大多数现有方法采用基于密集体素的场景表示,忽略了驾驶场景的稀疏性,导致效率低下。近期研究探索了基于稀疏高斯函数的以物体为中心的表示,但其椭球形状先验限制了对多样化结构的建模。在现实世界的驾驶场景中,物体呈现出丰富的几何形状(例如长方体、圆柱体和不规则形状),需要使用大量密集排列的椭球高斯函数才能实现精确建模,这导致表示效率低下。为了解决这个问题,我们提出使用几何表达能力强的超二次曲面作为场景基元,利用其固有的形状多样性,能够用更少的基元高效地表示复杂结构。我们开发了一个概率超二次曲面混合模型,该模型将每个超二次曲面解释为具有相应几何先验的占用概率分布,并通过概率混合计算语义。在此基础上,我们提出了 QuadricFormer,一个基于超二次曲面的高效 3D 占用预测模型,并引入了剪枝和分裂模块,通过将超二次曲面集中在占用区域来进一步提升建模效率。在 nuScenes 数据集上进行的大量实验表明,QuadricFormer 在保持卓越效率的同时,达到了最佳性能。

Ⅰ 引言


以视觉为核心的自动驾驶系统因其成本效益优势,相较于激光雷达方案备受关注。然而,由于视觉模糊性导致的障碍物形状不规则识别困难,严重影响了行车安全。近期在三维语义占用预测领域的突破,通过估算三维场景中体素级的占用状态和语义标签,有效解决了这一问题。该技术能全面解析场景结构与语义特征,为自监督三维场景理解、四维占用预测以及端到端自动驾驶等应用提供支持。尽管前景广阔,三维语义占用预测仍面临高密度三维预测带来的效率挑战,因此高效且表达力强的三维表征至关重要。虽然基于体素的方法通过密集三维网格捕捉细节,却忽视了驾驶场景的稀疏性并导致计算成本过高。最新进展引入了基于三维高斯分布的对象中心化表征,用以稀疏描述场景。每个高斯分布通过位置、协方差、不透明度和语义等可学习属性,建模其局部区域的占用概率分布。但高斯表征存在根本性局限:根据数学公式,高斯分布采用椭球衰减模式描述空间占用概率。这在高斯模型之前就强加了严格的椭球形状先验,严重限制了其对多样化几何结构的建模能力。现实驾驶场景中存在结构变化丰富的物体,仅靠少量椭球高斯模型无法准确表征。因此,基于高斯模型的建模方法必须聚合大量密集排列的高斯模型来近似目标形状,导致效率显著下降。本文提出一种高效且富有表现力的以物体为中心的三维表示方法,采用超二次曲面[1]作为场景基元。超二次曲面是一类参数化形状,具有高几何表现力和紧凑的形状参数,为建模多样化几何结构提供了极大灵活性。这使得超二次曲面能够以稀疏排列方式建模复杂结构,实现高效且强大的三维表征。我们通过一组可学习的超二次曲面来表示场景,每个曲面都具有位置、尺度、旋转、不透明度、语义和形状指数等特征属性。在空间占用预测中,我们采用概率性超二次曲面混合模型,将每个超二次曲面解释为局部空间占用概率分布,并通过概率性混合计算语义信息。基于此表征方法,我们提出QuadricFormer框架——一个基于超二次曲面的高效三维语义空间占用预测系统。此外,我们设计了一个剪枝与分裂模块,将超二次曲面聚焦于占据区域,从而进一步提升建模效率。在nuScenes数据集上的大量实验表明,我们的QuadricFormer在保持卓越效率的同时,实现了业界领先的性能表现。

图片

图1. 考虑到高斯函数的椭圆形先验,我们提出利用富有表现力的超二次曲面来构建高效且强大的以对象为中心的表示。


Ⅱ 相关工作


A. 三维语义占用预测

三维语义占用预测通过为每个体素标注几何和语义信息来重建精细的三维场景,这对自动驾驶至关重要。激光雷达和摄像头是最常用的两种传感器。虽然基于激光雷达的方法在深度精度上表现出色,但其在恶劣天气和远距离检测中的局限性促使了以视觉为中心的方法,这些方法通过多视角视觉输入重建场景。早期方法直接将图像特征提升到密集的体素网格中进行三维占用预测。然而,考虑到驾驶场景中被占用体素的稀疏性,后续研究优先通过替代表示来提高效率。平面表示如BEV和 TPV将三维数据压缩为二维特征图以实现高效处理,但牺牲了几何保真度。以物体为中心的建模通过将计算集中在显著区域来保持几何保真度,既缓解了均匀体素网格的冗余问题,又避免了平面压缩导致的信息损失。然而,由于现实世界结构的复杂性,这些方法仍难以在效率和建模能力之间取得平衡。为解决这一问题,我们提出了一种基于超二次曲面的模型,能够高效准确地表示复杂几何结构。

B. 以物体为中心的场景表征

现有三维场景表征技术主要采用基于体素的框架进行精细的体积建模,在语义预测任务中表现优异。然而,其对所有体素的统一处理方式会导致空间冗余,尤其在稀疏环境中更为明显。为解决这一问题,近期研究开始探索以物体为中心的表征方法。其中一种方法将密集网格划分为局部区域,仅保留检测到的物体区域。虽然这种方法效率高,但非空区域可能被错误剔除,导致关键几何信息不可逆丢失。另一种点云方法则利用稀疏点作为迭代优化的查询点,但点云本身缺乏空间延展性,难以捕捉上下文几何特征。最新进展采用三维语义高斯分布,通过概率密度从高斯中心向外辐射实现自适应空间覆盖。尽管高斯分布通过概率扩散缓解了点云的刚性问题,但对于复杂几何结构(尤其是精细结构)而言,仍需大量密集排列的几何基元,导致表征效率低下。本文提出几何表达能力更强的超二次曲面作为紧凑的场景基元。与传统物体中心方法不同,超二次曲面无需密集排列即可原生参数化多种几何形态(如长方体、圆柱体),用更少基元实现更优的重建保真度。

C. 超四次曲面

超四次曲面是由Barr等人提出的参数化几何基元,用于通过紧凑参数化建模多样化形状。典型超四次曲面由五个参数定义:每个半轴上的三个尺度参数和决定其形状的两个指数。超四次曲面的尺度与形状参数可实现不同几何形状(如长方体、圆柱体和球体)之间的平滑插值。当结合用于平移和旋转的六个姿态参数时,仅需11个参数即可表征完整三维物体。近期研究采用超四次曲面将复杂环境分解为紧凑几何基元,这些方法在保持模型效率的同时展现出卓越的重建能力和编辑灵活性。然而现有方法仅适用于点云处理且局限于物体级重建。与之不同,我们首次提出基于超四次曲面的多视角图像整体场景重建框架,以卓越效率实现业界领先性能。

图片

图2. 不同表示方法的对比。(a) 基于二次曲面的方法使用更少的图元即可呈现相同物体,且形状表现力更强。(b) 该二次曲面表示方法在准确性和速度方面均优于现有方法,且所需图元数量显著减少


Ⅲ 方法


A. 以对象为中心的场景表示

以视觉为中心的 3D 语义占用预测旨在根据视觉输入估计 3D 空间中每个体素的占用状态和语义标签。 正式而言,给定来自N个视图的输入图像

,该模型旨在预测 3D 场景的体素级语义标签,其中表示语义类别,表示占用的空间形状。

为实现这一目标,基于体素的方法[36,42]采用密集的体素特征来建模三维场景,导致计算复杂度达到级别。这种低效源于其对空间中所有体素的统一处理方式,忽略了现实场景固有的稀疏性。基于此,近期研究[15,12]探索了基于三维高斯分布的对象中心化表征方法,将计算资源聚焦于关键区域以实现高效场景建模。基于高斯的方法[12]通常采用一组个语义三维高斯基元来稀疏表征三维场景。每个高斯基元通过其显式均值、尺度、旋转角、不透明度及语义概率来建模灵活的局部区域。对于三维空间中的点,其与高斯基元相关的几何占据概率计算公式为:

图片

其中  表示点的位置,  、分别代表协方差矩阵、由四元数 构建的旋转矩阵以及由尺度构建的对角尺度矩阵。此外,使用概率高斯混合模型来聚合多个高斯分布,以预测场景的结构和语义。由于每个高斯分布代表场景中的一个灵活区域,基于高斯的表示方法能够实现资源的自适应分配和高效的建模。

尽管三维高斯表示比密集体素(例如6400个高斯点 vs. 每场景200×200×16个体素)更高效,但仍存在阻碍其达到最佳效率与性能平衡的局限性。我们的关键洞见在于:高斯点本质上施加了椭球形状先验,这限制了其建模多样化结构的能力。如等式1所示,高斯点的占据概率分布可视为一组由以下定义的等概率曲面集合:

图片

其中表示点位置,表示曲面族的超参数,表示高斯沿三个轴的尺度。在描述标准椭球体的等式3中,为简化起见省略了高斯的旋转和均值。每个高斯随后用三维空间中的椭球衰减来建模占用概率。但现实世界中的物体通常具有多种形状,如长方体、圆柱体和不规则形状,这些形状无法通过少量椭球高斯准确表示。这迫使模型使用大量密集排列的高斯来近似复杂结构,导致场景表示效率低下。相比之下,我们的方法采用表达力强的超二次曲面作为场景基元,仅需少量稀疏排列的超二次曲面即可高效紧凑地建模复杂结构。

B. 超二次曲面Superquadrics场景

我们引入了一种以对象为中心的场景表示方法,利用超二次曲面基元的高效性和表达能力。超二次曲面是一类具有强大几何表达能力的参数化形状,定义如下:

图片

公式(4),典型的超二次曲面由五个参数定义:沿每个半轴的三个比例参数和两个确定其形状的指数。

其中 表示点位置,表示曲面族的超参数。与公式3中的椭球相比,超二次曲面仅引入了两个额外的形状定义指数,却可以表示更为多样的形状。如图2a所示,随着形状参数的变化,超二次曲面可以实现连续且多样的形状变化。 这种固有的参数效率和几何表现力使得超二次曲面能够模拟各种形状,而不会密集堆积。 因此,只需要少量的超二次曲面就可以表示复杂的场景结构,实现高效而强大的场景表示。

因此,我们利用一组参数化的超二次曲面来表示 3D 场景。每个超二次曲面都以其尺度 和形状指数为特征,以定义其几何形状。为了将表示扩展到全局坐标系,每个图元还被分配了位置 和旋转 。除了几何属性之外,每个超二次曲面还配备了不透明度和语义概率,以整合语义信息。总而言之,我们基于超二次曲面的表示可以表述如下:

图片

我们现在探索如何从超二次曲面表示中获取三维占用预测。现有方法(fedele2025superdec)通常将超二次曲面视为确定性曲面,并将其拟合到物体各部分以进行点云重建。然而,这些基于曲面的方法在以视觉为中心的占用预测中面临关键限制。主要挑战在于监督。虽然点云重建可以直接优化点与超二次曲面之间的距离,但占用预测需要细粒度的场景理解,而这缺乏明确的基于曲面的约束。此外,基于曲面的方法依赖于点云输入的显式结构,而视觉输入会引入结构不确定性,导致确定性建模不稳定。最后,基于曲面的方法侧重于具有简单空间关系的物体级重建。但现实世界的驾驶场景涉及更为复杂的表面交互,这带来了巨大的建模困难。

为了实现稳健的 3D 语义占用预测,我们设计了一种将超二次曲面转换为占用概率的概率建模机制。 受 GaussianFormer-2的启发,我们采用了一个概率超二次曲面混合模型,其中每个超二次曲面定义了其局部邻域内的占用概率分布。为了计算三维点 被超二次曲面占据的概率,我们首先将转换至的局部坐标系,该坐标系由其位置和旋转定义:

图片

其中表示的局部坐标,表示由旋转构造的旋转矩阵。与相关的占据概率则按以下公式计算:

图片

其中 和 分别是位置参数和尺度参数,是超二次曲面的形状指数。假设不同超二次曲面之间的占用条件独立,则处的最终占用概率计算如下:

图片

随后,通过对所有有贡献的超二次曲面的语义概率进行加权聚合来推断语义预测,其中权重对应于它们在处的占用影响:

图片

这种概率建模的关键在于将超二次曲面几何作为形状先验融入概率分布中,并实现为符合其几何形状的等概率曲面(如公式4所示)。利用超二次曲面的几何表达能力,我们的模型能够使用一组稀疏的基元(无需密集填充)高效地表示复杂的三维结构,从而实现高效而强大的场景表征。此外,该概率框架能够有效地模拟由视觉模糊性引起的结构不确定性,显著提升模型的鲁棒性和泛化能力。

C. QuadricFormer

我们在图3中展示了QuadricFormer的整体框架。

图片

图3. QuadricFormer 的整体框架。我们使用多个二次曲面编码器模块来更新超二次曲面,并采用剪枝和分裂模块进一步提升建模效率。5个模块:初始化超二次曲面、图像特征提取、超二次曲面和图像特征的交叉注意力融合、超二次曲面的概率占用预测、Quadric-to-voxel的泼溅渲染。

个视图的图像输入开始,我们首先采用图像骨干网络来提取多尺度图像特征

图片

由于缺乏场景的结构先验信息,我们在三维空间中随机初始化若干超级二次曲面,并采用个二次曲面编码器模块从图像中预测最终的超级二次曲面。在每个模块中,我们首先通过二次曲面编码器将当前超级二次曲面编码为特征

图片

随后,我们采用三维稀疏卷积进行超二次特征自编码,并使用可变形注意力实现超二次特征与图像特征之间的交互:

图片

其中表示超二次型的显式位置,作为辅助信息用于指导特征编码。最后,采用二次型解码器预测超二次型属性的更新,并通过残差相加与原始属性相结合:

图片

块更新后,我们得到最终的超二次预测,而3D语义占用预测可以通过概率建模机制推断得出:

图片

在优化过程中,我们采用交叉熵损失和Lovasz Softmax[2]损失进行训练。由于缺乏结构先验信息,超四元组在三维空间中被统一初始化。这导致部分位于空域的超四元组被优化到微小尺度,对场景建模贡献甚微,造成效率低下。为此,我们在初始训练后引入剪枝-分割模块:对可能位于空域的小尺度超四元组进行剪枝,而对可能位于被占区域的大尺度超四元组进行分割以实现精细建模。我们保持超四元组数量不变,并通过两个附加模块进一步优化其特性。值得注意的是,这种轻量级模块在不增加显著计算开销的前提下,显著提升了超四元组的利用率,实现了更高效的场景表征。


Ⅳ 实验


A. 数据集与评估指标

NuScenes数据集包含1000条在波士顿和新加坡采集的城市驾驶场景序列。该数据集官方划分标准为:700条用于训练,150条用于验证,150条用于测试。每条序列持续20秒,通过6个环绕摄像头采集的RGB图像,关键帧以2赫兹频率进行标注。在监督学习和评估过程中,我们采用SurroundOcc提供的密集语义占用标注数据。标注的体素网格在X/Y轴方向覆盖-50米至50米,在Z轴方向覆盖-5米至3米,空间分辨率为200×200×16。每个体素被划分为18个类别之一(含16种语义类型、1个空位和1个未知)。

评估指标遵循行业通用标准,即采用平均交并比(mIoU)和交并比(IoU):

图片

其中分别代表非空类、空类以及真阳性、假阳性和假阴性预测的数量。

B. 实施细节

输入图像的分辨率为900×1600,用于带有随机翻转和光度畸变增强的nuScenes。我们采用ResNet101- DCN 与FCOS3D检查点进行nuScenes处理。

在nuScenes数据集的主要结果中,超级二次曲线的数量设定为1600。为优化模型,我们采用AdamW优化器进行训练,其权重衰减系数为0.01,最大学习率设为4×10−4,并按余弦衰减曲线调整。在nuScenes数据集上,我们以8个样本为一批次,进行了20个训练周期的模型训练。

C.主要结果

三维语义空间占用预测。 我们在表Ⅰ中展示了QuadricFormer的性能表现。与其他方法相比,我们的方法达到了业界领先水平。具体而言,QuadricFormer在自行车、摩托车、卡车等类别以及各类地面相关类别(可行驶路面、人行道、地形等)上均表现优异,展现出对小型物体和结构化物体建模的卓越能力。此外,我们的方法在使用更少超二次曲面(1600个对比12800个)的情况下,显著超越了GaussianFormer-2,进一步验证了其高效性与实用性。

基于高斯方法的性能与效率对比。 表Ⅱ展示了QuadricFormer与基于高斯方法的性能与效率对比。QuadricFormer在三维语义空间占用预测和计算效率方面均持续超越现有方法。具体而言,我们的方法实现了最高的平均交并比(最高达21.11)和交并比(最高达32.13),超越所有基于高斯的方法。在效率方面,QuadricFormer显著降低了延迟和内存消耗。对于相同或更少的原始数据点(例如1600或3200个),我们的方法可实现低至162毫秒的延迟和2554MB的内存消耗,远低于其他方法。值得注意的是,即使将QuadricFormer的原始数据点数量增加至12800个,其延迟和内存消耗仍低于仅使用1600个原始数据点的基于高斯的方法。这进一步凸显了我们的方法在实际应用中处理复杂结构时的卓越效率。

表Ⅰ nuScenes数据集上的三维语义占用预测结果。*表示采用密集占用标注进行监督学习,而非原始LiDAR分割标签。Ch.表示本模型的通道维度。本方法达到当前最先进的性能水平

图片

表Ⅱ 与基于高斯的方法相比,性能和效率的比较。在推断过程中,使用 NVIDIA 4090 GPU进行批量大小为一的延迟和内存测试,这与基于高斯的方法一致。我们的方法实现了更好的性能-效率平衡。

图片

D. 消融实验

范围的影响。 我们对等式4中超二次指数参数 的范围进行了消融研究,如表Ⅲ所示。在这些实验中,我们将超二次方的数量设置为12800。该表探讨了不同 范围对3D语义占用预测性能的影响。我们观察到,设置(0.1,2)范围能获得最佳结果,实现了最高的mIoU(20.51)和IoU(31.25)

表Ⅲ 范围的影响

图片

E. 可视化展示

我们在图4中展示了预测的超二次曲面及占用率结果的可视化效果。该模型能够利用超二次曲面预测高保真度形状,并实现全面的占用率结果。此外,我们在图5中将本方法与GaussianFormer-2进行对比,结果显示我们的预测超二次曲面比高斯模型具有更强的自适应性。值得注意的是,本方法仅需1600个超二次曲面即可达到高质量性能,而高斯模型则需要6400个。

图片

图4. nuScenes上的3D超四边形与占据可视化。我们的模型能够预测高保真形状并实现全面的占据结果。

图片

图5. 定性对比分析。QuadricFormer模型能生成更具柔韧性和自适应性的三维形态。剪枝-分割模块的效果评估。我们通过消融实验验证了该模块的作用(如表Ⅳ所示),实验结果表明:增加剪枝与分割次数能持续提升模型性能。这证实了将基础元素从低密度区域重新分配至高密度区域,可有效提升三维场景表征的准确性和运算效率。

表Ⅳ 修剪-分株模块的效果。

图片



Ⅴ 结论

本文提出了一种基于超二次曲面的对象中心化表征方法,用于高效实现三维语义占用预测。具体而言,我们利用超二次曲面的几何表达能力,用更少的稀疏原始元素建模复杂结构。我们构建了一个概率性超二次曲面混合模型,其中每个超二次曲面都编码了具有对应几何先验的占用概率分布,并通过概率混合推断语义信息。此外,我们引入了自适应剪枝分割模块,可将超二次曲面集中于被占用区域以进一步提升建模效率。在nuScenes基准测试中,我们提出的QuadricFormer展现出业界领先性能与卓越效率。

局限性: 采用随机初始化时,QuadricFormer无法完全学习到精确的超二次曲面位置,导致部分超二次曲面残留在空区域,降低表征效率。

更广泛影响: 我们在自动驾驶领域的研究有望提升未来交通效率,但也可能引发驾驶员岗位流失问题。


参考文献


图片图片图片图片图片
分享到:
 
反对 0 举报 0 收藏 0 评论 0
沪ICP备11026917号-25