智能座舱行为识别数据解决方案，助力打造第三空间新体验

作者：数据堂发布时间：2023-03-30

智能座舱关注车内感知，通过在车内安装摄像头感知驾驶员和乘客的行为以及车内状况。座舱行为识别任务旨在识别车辆座舱中驾驶员及乘客的行为，改善驾乘体验提供技术支持，以提供驾驶员和乘客更好的驾乘体验和更安全的行车保障。

座舱行为识别-数据标注方式

对于不同的座舱行为，识别的人体目标不同，因此标注的方式不同，典型的标注方式包括人脸关键点标注，手势关键点标注，物品检测框标注，物品&行为标签标注。典型的例子如下：

1、人脸标注

此类标注方式用于识别人脸相关的行为。

例如疲劳驾驶识别、视线偏移识别等，具体的标注形式是标注人脸关键点+行为的标签。

2、人体&物品标注

此类标注方式用于识别人体及物体相关的行为。

例如抽烟识别、开车喝水、开车打电话等，具体的标注形式是标注物品的检测框+人手部检测框+行为类别标签信息。

3、手势标注

此类标注方式用于识别手势动作。

例如手指不同指向，手掌动作，手指滑动等，具体标注行为为标注手势关键点+手势类别标签信息。

座舱行为识别-任务难点

基于不同座舱行为与人体目标的实际情况，座舱行为识别任务具备行为复杂、光照以及性能三个难点：

1、行为复杂

座舱行为种类众多，并且部分行为存在一定程度的主观性（例如晕车、疲劳驾驶等行为），造成算法识别难度较大。

2、光照难点

汽车在行驶过程中会面临来自不同方向的强光干扰，造成人脸、人体、物体等目标会出现光照不均匀，此外在夜晚时间光照不足，在不开车内灯光的情况下，普通的彩色镜头无法捕捉足够识别的信息，需要红外镜头辅助。

3、性能难点

车载场景不同于实验室场景，设备的功耗和算力均需控制在一定程度内，而算法识别的准确率要求又很高，因此如何小型化模型并兼顾算法精度是一个重要研究方向。

一份来自数据堂的解决方案

数据堂针对座舱行为识别的任务需求和难点，从数据层面针对性设计了下述数据集，分别介绍如下：

1307人驾驶员行为采集数据

该数据集采集黄种人、黑人、白人和印度人共1307人驾驶员行为采集数据。在采集设备配置方面，为保证数据在夜晚或者驾驶员戴墨镜情况下的数据有效性，数据采集采用了RGB+红外双目镜头，提供彩色视频和红外视频两种数据模态。在机位架设方面，该数据在车内后视镜中央、车内中控台上方及车内左侧A柱上方假设三个机位，具体示意图如下：

在具体行为种类方面，数据集涵盖了座舱驾驶员行为识别需要的绝大多数行为种类，包含驾车打电话、未系安全带、驾车抽烟、驾车喝水、开车戴墨镜、双手脱离方向盘等危险驾驶行为；开车时闭眼、频繁眨眼、点头、打哈欠等疲劳驾驶数据；开车时视线上下左右偏移的视线偏移行为。每个人共采集150段视频。

数据规模	1307人
人员分布	男性695名，女性612名
采集环境	车内摄像头
采集多样性	多人种、多年龄段、多时间段、多种行为（危险驾驶、疲劳驾驶、视线偏移）
采集设备	可见光和红外双目摄像头
采集时间	白天、傍晚、夜晚
图像参数	.avi 分辨率640*480
准确率	精度>95%

103,282张驾驶员行为标注数据

该数据为1307人驾驶员行为采集数据中对1003人中国人数据的抽帧标注。在具体标注中，针对不同的行为类别，采取两种不同的标注方式。对于正常驾驶、开车闭眼、开车频繁眨眼、开车打哈欠、开车点头及视线偏移行为，采用人脸72关键点+人脸属性+人脸检测框+手势框标注；对于未系安全带驾驶、开车喝水、驾车打电话、驾车抽烟等危险驾驶行为，采用人脸属性+瞳孔关键点+安全带框+人脸检测框+手势框标注。

数据规模	103282张
人员分布	18-60岁黄种人，男女比例均衡
采集环境	车内摄像头
采集多样性	多年龄段、多时间段、多种行为（危险驾驶、疲劳驾驶、视线偏移）
采集设备	可见光和红外双目摄像头
采集时间	白天、傍晚、夜晚
图像参数	图像格式为 .jpeg，标注文档格式为 .json
标注说明	人脸72关键点（包括瞳孔）、人脸属性、手势检测框、安全带检测框、行为类别
准确率	准确率>95%

122人乘客行为识别数据

该数据集采集黑人、白人和印度人共122人的乘客行为识别数据。在采集设备配置方面，为保证数据在夜晚或者乘客戴墨镜情况下的数据有效性，数据采集采用了RGB+红外双目镜头，提供彩色视频和红外视频两种数据模态。在机位架设方面，该数据在车内后视镜中央、车内右侧A柱上方、车内左侧B柱上方、车内右侧B柱上方架设四个机位，具体示意图如下：

在具体行为种类方面，数据集涵盖了乘客行为识别需要的大多数行为种类，包含乘客打电话、玩手机、看书、喝水、抽烟、吃东西、手伸到车窗外、用笔记本办公等正常行为；乘客不同程度晕车、不同程度困倦、遗落物品等异常行为。每位乘客共采集120段视频。

数据规模	122人
人员分布	男性86人，女性36人；白、黑、棕三种肤色
采集环境	车内摄像头
采集多样性	多人种、多年龄段、多时间段、多种行为（正常行为、晕车行为、乘客困意行为、乘客遗落物品行为）
采集设备	可见光和红外双目摄像头
摄像头位置	车内后视镜中央、车内右侧A柱上方、车内左侧B柱上方、车内右侧B柱上方
采集时间	白天、傍晚、夜晚
车型	小轿车、SUV
数据格式	.avi
准确率	准确率>95%

314,178张18种手势识别数据

该数据集采集中国人静态手势数据，用于人机交互。数据集总计314178张图像，18种静态手势，涉及1000名以上中国人。该数据利用手机拍摄不同机位、不同手势、同一手势不同方向的左右手手势数据。从手势种类来看，包含日常人机交互等18种常用单手及双手手势，具体包括数字1-6、数字8、单手比心、OK、点赞、踩、握拳、Rock、Love、双手比心、双手合十、拜年、抱拳礼。在数据标注方面，对手势图片采用手部21关键点+手势标签标注，标签包括手势类别、采集者性别、左右手、手势正面背面、采集背景、相机位置、手势旋转角度等。

数据规模	40人
人员分布	中国人，男、女性各20人
年龄分布	18-57岁每个年龄各一人
采集环境	室内、外场景各20人
采集多样性	多种动作、人脸多姿态、多种对抗样本、多种光照条件、多种场景
采集设备	多种带3D结构光模组的苹果手机（iphone X及以上记性）
数据格式	.jpg、.xml、.json
车型	小轿车、SUV
标注内容	标签标注人物ID、人种、性别、年龄、人脸动作、对抗样本类别、光照条件

558870段50种动态手势识别数据

该数据集采集中国人动态手势数据，用于人机交互。数据集总计558870段视频，50种动态手势，涉及1000名以上中国人。该数据利用手机、iPad及笔记本电脑从不同角度拍摄左右手手势数据。从手势种类来看，包含日常人机交互等50种常用的动态手势，具体包括手指滑动，手掌滑动，全掌变换、拳部滑动，静止等。在数据标注方面，标注各段视频标签，标签包括手势类别、采集者性别、左右手、采集背景、拍摄角度等。

数据规模	558870段，笔记本电脑采集219660段；手机/iPad采集339210段
人员分布	中国人，18岁以下、18-40岁、40岁以上
采集环境	室内外场景（自然景观、街景、广场等）
采集多样性	多种场景、多种光照条件、不同拍摄距离、5种拍摄角度、50种动态手势
采集设备	手机、iPad、笔记本电脑
采集角度	正面、左/右斜视、俯视、仰视
采集距离	0.3米、0.6米、1米、2米、3米
车型	小轿车、SUV
数据格式	.mp4、.mov、.wmv
准确率	准确率>97%

座舱智能化发展是以数据为底层基础，根据不同车厂的设计以及用户不同的使用习惯，会产生大量的差异化需求，数据的处理相应变得多样复杂。数据堂从底层数据设计和规划做起，针对差异化需求提供定制化数据方案，以满足座舱内交互的基本功能点。

阅读更多内容

数据推荐 | 自然场景OCR文字识别数据集一览

依托自身的数据优势以及丰富的数据处理经验，数据堂推出的自然场景多国语言系列OCR标注及转写数据，为自然场景OCR技术应用的广泛落地提供助力。

融合与创新：数据堂骨龄标注工具为医生赋能

数据堂推出骨龄标注工具，支持DICOM医学数字成像格式和普通2D可见光影像格式。AI助力，读片准确率将比人工更准确。

智能座舱行为识别数据解决方案，助力打造第三空间新体验

一份来自数据堂的解决方案

上一篇

数据推荐 | 自然场景OCR文字识别数据集一览

下一篇

融合与创新：数据堂骨龄标注工具为医生赋能

智能座舱行为识别数据解决方案，助力打造第三空间新体验

一份来自数据堂的解决方案

近期内容

数据驱动进化：AI Agent如何重构手机交互范式？

垂域大模型时代：专业数据铸就行业智能底座

案例分享|高质量数据服务赋能智慧医疗3.0时代

上一篇

数据推荐 | 自然场景OCR文字识别数据集一览

下一篇

融合与创新：数据堂骨龄标注工具为医生赋能