【第五章:计算机视觉-计算机视觉在自动驾驶领域的应用】1.雷达点云3D目标检测-(2)经典的基于基于Point/Point-Voxel的雷达点云3D目标检测算法详解

第五章:计算机视觉-计算机视觉在自动驾驶领域的应用

第一部分:雷达点云3D目标检测

第二节:经典的基于基于Point/Point-Voxel的雷达点云3D目标检测算法详解


一、引言:点云特征提取的核心挑战

在上一节中,我们了解了雷达点云(LiDAR Point Cloud)的基本特性——稀疏性、不规则性和三维空间性。
这种数据形式使得传统的 2D 卷积神经网络(CNN) 无法直接应用,因为:

  • 点云不像图像那样有固定的二维网格结构;

  • 点与点之间的空间关系不规则,缺乏邻接关系;

  • 点云数据的稀疏性导致计算资源容易浪费在空区域。

为此,研究者们提出了两条主要的技术路线来解决点云特征提取问题:

  1. 基于点(Point-based)的方法 —— 直接以原始点云为输入,保留几何结构信息;

  2. 基于点-体素(Point-Voxel-based)的方法 —— 结合体素化的空间结构表示与点特征聚合的优势。

这两种方法是当前雷达点云3D目标检测算法的主流方向,本节将详细解析其代表性模型与算法机制。


二、基于点的 3D 目标检测算法(Point-based Methods)

1. 核心思想

基于点的方法直接处理原始点云数据,无需将其映射或体素化。
代表模型如 PointNetPointNet++,其核心目标是:

在不破坏点云稀疏结构的前提下,从每个点中学习出局部与全局几何特征。

2. 代表算法 —— PointNet
  • 提出者:Qi et al., 2017, CVPR

  • 核心贡献:首次提出直接对点云进行端到端的神经网络处理。

  • 输入形式:N 个点的集合 {(x_i, y_i, z_i)}_{i=1}^N

  • 关键技术:对输入点集应用对称函数(Symmetric Function),实现置换不变性(Permutation Invariance)

网络结构简述

  1. 对每个点独立提取特征(MLP层);

  2. 使用全局最大池化(Max Pooling)获得全局特征;

  3. 将全局特征与点特征拼接,用于分类或分割任务。

公式表示
f({x_1, x_2, ..., x_n}) = \gamma(\text{MAX}{\phi(x_1), \phi(x_2), ..., \phi(x_n)})
其中,\phi为点级特征提取函数,\gamma为全局特征聚合函数。

优点

  • 不依赖体素结构;

  • 保留点云原始几何关系。

缺点

  • 无法有效建模点与点之间的局部空间关系

  • 适用于小规模点云,不适合大规模雷达场景。


3. 代表算法 —— PointNet++

为弥补 PointNet 无法捕获局部几何关系的不足,PointNet++ 引入了分层特征学习机制(Hierarchical Learning)。

核心机制

  • 采样(Sampling):从原始点云中选取关键点;

  • 分组(Grouping):以关键点为中心划分局部邻域;

  • 特征提取(Feature Learning):对每个局部区域应用 PointNet,提取局部特征;

  • 聚合(Aggregation):逐层汇聚形成全局语义表示。

优势

  • 兼顾局部与全局几何结构;

  • 可扩展至复杂场景;

  • 具备较强的三维形状理解能力。

不足

  • 计算量大;

  • 邻域搜索复杂(尤其在实时检测中)。


三、基于 Point-Voxel 的混合型算法(Point-Voxel-based Methods)

1. 核心思想

为了兼顾 点云的结构保真性(来自Point-based)空间高效计算(来自Voxel-based),研究者提出了混合型架构——Point-Voxel Network

代表模型包括:

  • Point-Voxel CNN (PVCNN)

  • Voxel R-CNN

  • PV-RCNN

这类方法通常流程如下:

  1. 对点云进行体素划分(Voxelization),提取稀疏体素特征;

  2. 同时保留原始点信息;

  3. 将体素级特征与点级特征进行融合,提升特征表达能力。


2. 代表算法 —— PV-RCNN(Point-Voxel R-CNN)
  • 提出者:Shi et al., CVPR 2020

  • 核心思想:结合体素特征提取与点特征聚合,实现精细的3D目标检测。

模型结构概述

  1. 体素编码阶段(Voxel Feature Encoder, VFE)

    • 将点云划分为体素;

    • 对每个体素内的点进行特征编码;

    • 使用稀疏卷积(Sparse Convolution)提取空间结构。

  2. 候选框生成(RPN Proposal Generation)

    • 使用 BEV(Bird’s Eye View)特征生成初步候选框。

  3. 点级特征聚合(Point-based RoI Refinement)

    • 对候选区域内的点进行精细特征提取;

    • 聚合多尺度特征,进行边界框精修。

创新点

  • 将体素特征和点特征融合,兼顾速度与精度;

  • 引入 RoI Pooling 机制到 3D 空间;

  • 支持高精度的检测与姿态估计。

效果

  • KITTIWaymo 数据集上显著超过纯 PointNet 或纯 VoxelNet;

  • 实现高精度、高召回率的 3D 检测性能。


四、Point-based 与 Point-Voxel-based 方法对比总结

对比维度Point-based 方法Point-Voxel-based 方法
输入数据原始点云点云 + 体素
结构特征保留原始几何关系融合局部与空间结构
代表模型PointNet、PointNet++PV-RCNN、Voxel R-CNN、PVCNN
精度表现中等偏高更高(尤其在复杂场景)
计算效率较慢更高效(稀疏卷积优化)
适用场景小规模点云分析自动驾驶场景检测

五、实际应用与发展方向

随着自动驾驶技术的成熟,雷达点云检测算法正向以下方向演进:

  1. 轻量化(Lightweight)

    • 针对嵌入式芯片或车载平台优化模型结构;

    • 减少参数量与计算延迟。

  2. 多模态融合(Multi-Modal Fusion)

    • 将 LiDAR 与摄像头(RGB)、毫米波雷达(Radar)结合,提高鲁棒性。

    • 代表模型:TransFusion、BEVFusion

  3. Transformer 融合(Transformer-based Point Cloud Detection)

    • 利用自注意力机制捕获长程依赖;

    • 模型代表:Point Transformer、Voxel Transformer


六、小结

基于点和基于点-体素的3D检测算法是自动驾驶感知系统的核心组件之一。
它们的演进路径体现了从“保留几何信息”到“高效空间建模”的技术发展趋势。

  • PointNet / PointNet++ 开创了点云直接建模的先河;

  • PV-RCNN 等模型实现了结构融合与精度突破;

  • 未来的方向将更多聚焦于 实时性、多模态融合与Transformer结构优化

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值