自动驾驶点云分割和图像分割区别｜数据堂

作者：-- 发布时间：2023-03-30

近年来，自动驾驶领域的各项下游任务基本上都要求了对场景的语义理解，比如自动驾驶车辆要能够理解哪个是路面、哪个是交通灯、哪个是行人、哪个是树木，因此点云分割的作用就不言而喻。

但随着Transformer模型的大火，用于点云分割的深度神经网络的参数量越来越庞大，动不动就上亿参数。想要训练如此庞大的模型，除了需要足够强的GPU外，还需要大量的标签和数据。数据很容易得到，64线的激光雷达一帧可以打出十几万个点云，现有的雷达数据集也不少了。但标签呢？给点云打过label的人都知道这个过程有多繁琐（haaaaa）。

由此，点云分割模型便出现了各种各样的训练范式，主要包括有监督、弱监督、无监督以及半监督。那么哪种训练方法才是最优的？显然这个问题在不同场景下有不同的答案。

1. 点云分割相较图像分割的优势是啥？

自动驾驶领域的下游任务，我认为主要包括目标检测、语义分割、实例分割和全景分割。其中目标检测是指在区域中提取目标的候选框并分类，语义分割是对区域中不同类别的物体进行区域性划分，实例分割是将每个类别进一步细化为单独的实例，全景分割则要求对区域中的每一个像素/点云都进行分类。

因为图像中存在大量且丰富的纹理信息，且相机相较于雷达很便宜，所以对图像进行分割非常容易。近年来也涌现了一大批图像语义分割的深度模型，比如我们所熟知的ViT、TransUNet、YOLOP等等。各自架构层出不穷，不停的在各种排行榜上提点，似乎图像语义分割已经非常完美。

那么为啥还要对雷达点云进行分割呢？

主要有三个原因：

（1）激光雷达可以获得绝对尺度。

我们知道单目图像是无法获得绝对尺度的，并且自动驾驶汽车在长时间运行过程中也会发生尺度漂移问题。虽然现有的一些方法在尝试从单目图像中恢复出绝对尺度，但基本上也都不太准确。这就导致了单纯从图像中提取出来的语义信息，很难直接应用于轨迹规划、避障、巡航等自动驾驶任务。

（2）激光雷达对强/弱光线非常鲁棒

视觉语义分割非常受光照和恶劣天气影响，在过强、过弱、模糊等光线条件下，分割结果往往会出现很严重的畸变。但对于自动驾驶任务来说，恶劣天气显然是无法避免的。

（3）激光雷达可以对环境进行3D感知

我们希望自动驾驶汽车能够对周围的整体环境进行全方位的感知，这对于激光雷达来说很容易。但对于图像来说就很难了，仅仅依靠单目图像很难恢复出完整的环境。依靠环视相机进行BEV感知的话也会带来像素畸变问题。

2. 都用啥数据集？

这里介绍个主流的点云分割数据集，用于模型的训练和评估。

数据堂自有数据集的“智能驾驶数据解决方案”中掌握着驾乘人群的行为数据，不仅包含驾驶员行为标注数据50种动态手势识别数据，103282张驾驶员行为标注数据等，还包1300万组人机对话交互文本数据，245小时车载环境普通话手机采集语音数据。不管是街景场景数据，驾驶员行为数据，还是车载语音数据，数据堂基于Human-in-the-loop智能辅助标注技术”和丰富的AI数据项目实施经验及完善的项目管理流程，支持智能驾驶场景下驾驶舱内、舱外的图像、语音数据采集任务，辅助智能驾驶技术在复杂多样的环境下更好的感知实际道路、车辆位置和障碍物信息等，实时感知驾驶风险，实现智能行车、自动泊车等预定目标。对于智能驾驶而言将是其他企业难以企及的优势。

3. 雷达点云表征

深度学习模型都需要一个规范化的数据表征，才能进行合理的特征提取和融合。对于图像来说，是一个非常规整的2D表征，即每个像素位置都是固定的，这有利于模型训练和测试。但对于3D点云来说，每帧点云有十几万个点，杂乱无章的点云必然不利于模型训练。因此需要对雷达点云进行合理表征。

雷达点云主要的表征模式有四种：

（1） 2D Range View表征

非常接近图像，将点云投影到平面，直接进行2D表征，得到x、y坐标。有时投影过程中还会考虑点云强度、深度以及每个方格是否有点云。网络输入也就是2D Range View，首先提取特征，然后进行特征融合，最后根据不同的分割头进行语义训练。

（2） 2D BEV表征

对于很多自动驾驶场景，往往是x和y坐标范围有几十米上百米，但z方向的坐标只有几米。因此有些表征就直接省略掉z方向的表达，通过俯视图得到极坐标表征。

（3） 3D Cylinder Voxel表征

在点云z方向进行Cylinder的划分，是一种3D描述，典型代表就是Cylinder3D。注意为什么要用Cylinder来表征而不是其他正方体呢？这是因为点云分布的密度是不一样的，在自车周围的点云密度很大，在周围的点云密度很小。通过这种不规则的划分就更有利于特征提取。

（4）混合表征

显然每种表征方法都有各自的特点和优劣，那么有些文章就将不同的表征模式进行混合，进而得到更强的表征。具体执行过程中会先通过不同的支路单独进行特征提取，之后进行特征融合并输出头。

在未来，弱监督和半监督是点云分割领域的重要发展趋势。

阅读更多内容

AI掌握了“读心术”？解密AI读心背后的意图理解数据

数据堂在深刻理解意图识别场景的基础上，通过对海量原始数据进行框选、提取、分类等一系列处理，将混杂无序的数据转写为机器学习可识别的专业数据，推出了《47,811句交互场景单句意图标注数据》、《28,699句交互场景单句意图标注数据》和《命名实体数据》，辅助机器在复杂多样的环境语言语境下更好地识别结构化意图。

自动驾驶背后核心技术--图像语义分割｜数据堂

无人驾驶系统中的一项重要核心技术——图像语义分割（semantic image segmentation）。图像语义分割作为计算机视觉（computer vision）中图像理解（image understanding）的重要一环，不仅在工业界的需求日益凸显，同时语义分割也是当下学术界的研究热点之一。

自动驾驶点云分割和图像分割区别｜数据堂

上一篇

AI掌握了“读心术”？解密AI读心背后的意图理解数据

下一篇

自动驾驶背后核心技术--图像语义分割｜数据堂

自动驾驶点云分割和图像分割区别｜数据堂

近期内容

数据驱动进化：AI Agent如何重构手机交互范式？

垂域大模型时代：专业数据铸就行业智能底座

案例分享|高质量数据服务赋能智慧医疗3.0时代

上一篇

AI掌握了“读心术”？解密AI读心背后的意图理解数据

下一篇

自动驾驶背后核心技术--图像语义分割｜数据堂