cn
数据解决方案
请输入姓名
手机号码格式错误
请输入联系电话
请输入公司名称
请输入正确的工作邮箱
请输入数据需求
提交成功!感谢您支持数据堂。
填写格式错误请重新填写
确定
数据需求不能小于5个字且不能为纯数字
https://www.datatang.com
https://www.datatang.ai
m.datatang.ai
作者:-- 发布时间:2023-03-30
近年来,自动驾驶领域的各项下游任务基本上都要求了对场景的语义理解,比如自动驾驶车辆要能够理解哪个是路面、哪个是交通灯、哪个是行人、哪个是树木,因此点云分割的作用就不言而喻。
但随着Transformer模型的大火,用于点云分割的深度神经网络的参数量越来越庞大,动不动就上亿参数。想要训练如此庞大的模型,除了需要足够强的GPU外,还需要大量的标签和数据。数据很容易得到,64线的激光雷达一帧可以打出十几万个点云,现有的雷达数据集也不少了。但标签呢?给点云打过label的人都知道这个过程有多繁琐(haaaaa)。
由此,点云分割模型便出现了各种各样的训练范式,主要包括有监督、弱监督、无监督以及半监督。那么哪种训练方法才是最优的?显然这个问题在不同场景下有不同的答案。
1. 点云分割相较图像分割的优势是啥?
自动驾驶领域的下游任务,我认为主要包括目标检测、语义分割、实例分割和全景分割。其中目标检测是指在区域中提取目标的候选框并分类,语义分割是对区域中不同类别的物体进行区域性划分,实例分割是将每个类别进一步细化为单独的实例,全景分割则要求对区域中的每一个像素/点云都进行分类。
因为图像中存在大量且丰富的纹理信息,且相机相较于雷达很便宜,所以对图像进行分割非常容易。近年来也涌现了一大批图像语义分割的深度模型,比如我们所熟知的ViT、TransUNet、YOLOP等等。各自架构层出不穷,不停的在各种排行榜上提点,似乎图像语义分割已经非常完美。
那么为啥还要对雷达点云进行分割呢?
主要有三个原因:
(1) 激光雷达可以获得绝对尺度。
我们知道单目图像是无法获得绝对尺度的,并且自动驾驶汽车在长时间运行过程中也会发生尺度漂移问题。虽然现有的一些方法在尝试从单目图像中恢复出绝对尺度,但基本上也都不太准确。这就导致了单纯从图像中提取出来的语义信息,很难直接应用于轨迹规划、避障、巡航等自动驾驶任务。
(2) 激光雷达对强/弱光线非常鲁棒
视觉语义分割非常受光照和恶劣天气影响,在过强、过弱、模糊等光线条件下,分割结果往往会出现很严重的畸变。但对于自动驾驶任务来说,恶劣天气显然是无法避免的。
(3) 激光雷达可以对环境进行3D感知
我们希望自动驾驶汽车能够对周围的整体环境进行全方位的感知,这对于激光雷达来说很容易。但对于图像来说就很难了,仅仅依靠单目图像很难恢复出完整的环境。依靠环视相机进行BEV感知的话也会带来像素畸变问题。
2. 都用啥数据集?
这里介绍个主流的点云分割数据集,用于模型的训练和评估。
数据堂自有数据集的“智能驾驶数据解决方案”中掌握着驾乘人群的行为数据,不仅包含驾驶员行为标注数据50种动态手势识别数据,103282张驾驶员行为标注数据等,还包1300万组人机对话交互文本数据,245小时车载环境普通话手机采集语音数据。不管是街景场景数据,驾驶员行为数据,还是车载语音数据,数据堂基于Human-in-the-loop智能辅助标注技术”和丰富的AI数据项目实施经验及完善的项目管理流程,支持智能驾驶场景下驾驶舱内、舱外的图像、语音数据采集任务,辅助智能驾驶技术在复杂多样的环境下更好的感知实际道路、车辆位置和障碍物信息等,实时感知驾驶风险,实现智能行车、自动泊车等预定目标。对于智能驾驶而言将是其他企业难以企及的优势。
3. 雷达点云表征
深度学习模型都需要一个规范化的数据表征,才能进行合理的特征提取和融合。对于图像来说,是一个非常规整的2D表征,即每个像素位置都是固定的,这有利于模型训练和测试。但对于3D点云来说,每帧点云有十几万个点,杂乱无章的点云必然不利于模型训练。因此需要对雷达点云进行合理表征。
雷达点云主要的表征模式有四种:
(1) 2D Range View表征
非常接近图像,将点云投影到平面,直接进行2D表征,得到x、y坐标。有时投影过程中还会考虑点云强度、深度以及每个方格是否有点云。网络输入也就是2D Range View,首先提取特征,然后进行特征融合,最后根据不同的分割头进行语义训练。
(2) 2D BEV表征
对于很多自动驾驶场景,往往是x和y坐标范围有几十米上百米,但z方向的坐标只有几米。因此有些表征就直接省略掉z方向的表达,通过俯视图得到极坐标表征。
(3) 3D Cylinder Voxel表征
在点云z方向进行Cylinder的划分,是一种3D描述,典型代表就是Cylinder3D。注意为什么要用Cylinder来表征而不是其他正方体呢?这是因为点云分布的密度是不一样的,在自车周围的点云密度很大,在周围的点云密度很小。通过这种不规则的划分就更有利于特征提取。
(4) 混合表征
显然每种表征方法都有各自的特点和优劣,那么有些文章就将不同的表征模式进行混合,进而得到更强的表征。具体执行过程中会先通过不同的支路单独进行特征提取,之后进行特征融合并输出头。
在未来,弱监督和半监督是点云分割领域的重要发展趋势。