第五章:计算机视觉-计算机视觉在自动驾驶领域的应用
第一部分:雷达点云3D目标检测
第二节:经典的基于基于Point/Point-Voxel的雷达点云3D目标检测算法详解
一、引言:点云特征提取的核心挑战
在上一节中,我们了解了雷达点云(LiDAR Point Cloud)的基本特性——稀疏性、不规则性和三维空间性。
这种数据形式使得传统的 2D 卷积神经网络(CNN) 无法直接应用,因为:
-
点云不像图像那样有固定的二维网格结构;
-
点与点之间的空间关系不规则,缺乏邻接关系;
-
点云数据的稀疏性导致计算资源容易浪费在空区域。
为此,研究者们提出了两条主要的技术路线来解决点云特征提取问题:
-
基于点(Point-based)的方法 —— 直接以原始点云为输入,保留几何结构信息;
-
基于点-体素(Point-Voxel-based)的方法 —— 结合体素化的空间结构表示与点特征聚合的优势。
这两种方法是当前雷达点云3D目标检测算法的主流方向,本节将详细解析其代表性模型与算法机制。
二、基于点的 3D 目标检测算法(Point-based Methods)
1. 核心思想
基于点的方法直接处理原始点云数据,无需将其映射或体素化。
代表模型如 PointNet 和 PointNet++,其核心目标是:
在不破坏点云稀疏结构的前提下,从每个点中学习出局部与全局几何特征。
2. 代表算法 —— PointNet
-
提出者:Qi et al., 2017, CVPR
-
核心贡献:首次提出直接对点云进行端到端的神经网络处理。
-
输入形式:N 个点的集合
-
关键技术:对输入点集应用对称函数(Symmetric Function),实现置换不变性(Permutation Invariance)。
网络结构简述:
-
对每个点独立提取特征(MLP层);
-
使用全局最大池化(Max Pooling)获得全局特征;
-
将全局特征与点特征拼接,用于分类或分割任务。
公式表示:
其中,为点级特征提取函数,
为全局特征聚合函数。
优点:
-
不依赖体素结构;
-
保留点云原始几何关系。
缺点:
-
无法有效建模点与点之间的局部空间关系;
-
适用于小规模点云,不适合大规模雷达场景。
3. 代表算法 —— PointNet++
为弥补 PointNet 无法捕获局部几何关系的不足,PointNet++ 引入了分层特征学习机制(Hierarchical Learning)。
核心机制:
-
采样(Sampling):从原始点云中选取关键点;
-
分组(Grouping):以关键点为中心划分局部邻域;
-
特征提取(Feature Learning):对每个局部区域应用 PointNet,提取局部特征;
-
聚合(Aggregation):逐层汇聚形成全局语义表示。
优势:
-
兼顾局部与全局几何结构;
-
可扩展至复杂场景;
-
具备较强的三维形状理解能力。
不足:
-
计算量大;
-
邻域搜索复杂(尤其在实时检测中)。
三、基于 Point-Voxel 的混合型算法(Point-Voxel-based Methods)
1. 核心思想
为了兼顾 点云的结构保真性(来自Point-based) 与 空间高效计算(来自Voxel-based),研究者提出了混合型架构——Point-Voxel Network。
代表模型包括:
-
Point-Voxel CNN (PVCNN)
-
Voxel R-CNN
-
PV-RCNN
这类方法通常流程如下:
-
对点云进行体素划分(Voxelization),提取稀疏体素特征;
-
同时保留原始点信息;
-
将体素级特征与点级特征进行融合,提升特征表达能力。
2. 代表算法 —— PV-RCNN(Point-Voxel R-CNN)
-
提出者:Shi et al., CVPR 2020
-
核心思想:结合体素特征提取与点特征聚合,实现精细的3D目标检测。
模型结构概述:
-
体素编码阶段(Voxel Feature Encoder, VFE)
-
将点云划分为体素;
-
对每个体素内的点进行特征编码;
-
使用稀疏卷积(Sparse Convolution)提取空间结构。
-
-
候选框生成(RPN Proposal Generation)
-
使用 BEV(Bird’s Eye View)特征生成初步候选框。
-
-
点级特征聚合(Point-based RoI Refinement)
-
对候选区域内的点进行精细特征提取;
-
聚合多尺度特征,进行边界框精修。
-
创新点:
-
将体素特征和点特征融合,兼顾速度与精度;
-
引入 RoI Pooling 机制到 3D 空间;
-
支持高精度的检测与姿态估计。
效果:
-
在 KITTI 和 Waymo 数据集上显著超过纯 PointNet 或纯 VoxelNet;
-
实现高精度、高召回率的 3D 检测性能。
四、Point-based 与 Point-Voxel-based 方法对比总结
对比维度 | Point-based 方法 | Point-Voxel-based 方法 |
---|---|---|
输入数据 | 原始点云 | 点云 + 体素 |
结构特征 | 保留原始几何关系 | 融合局部与空间结构 |
代表模型 | PointNet、PointNet++ | PV-RCNN、Voxel R-CNN、PVCNN |
精度表现 | 中等偏高 | 更高(尤其在复杂场景) |
计算效率 | 较慢 | 更高效(稀疏卷积优化) |
适用场景 | 小规模点云分析 | 自动驾驶场景检测 |
五、实际应用与发展方向
随着自动驾驶技术的成熟,雷达点云检测算法正向以下方向演进:
-
轻量化(Lightweight)
-
针对嵌入式芯片或车载平台优化模型结构;
-
减少参数量与计算延迟。
-
-
多模态融合(Multi-Modal Fusion)
-
将 LiDAR 与摄像头(RGB)、毫米波雷达(Radar)结合,提高鲁棒性。
-
代表模型:TransFusion、BEVFusion。
-
-
Transformer 融合(Transformer-based Point Cloud Detection)
-
利用自注意力机制捕获长程依赖;
-
模型代表:Point Transformer、Voxel Transformer。
-
六、小结
基于点和基于点-体素的3D检测算法是自动驾驶感知系统的核心组件之一。
它们的演进路径体现了从“保留几何信息”到“高效空间建模”的技术发展趋势。
-
PointNet / PointNet++ 开创了点云直接建模的先河;
-
PV-RCNN 等模型实现了结构融合与精度突破;
-
未来的方向将更多聚焦于 实时性、多模态融合与Transformer结构优化。