计算机视觉life”,选择“星标”
快速获得最新干货
标题: Delving into Localization Errors for Monocular 3D Object Detection
:Xinzhu Ma , Yinmin Zhang , Dan Xu , Dongzhan Zhou ,Shuai Yi , Haojie Li , Wanli Ouyang
来源:CVPR2021
编译:cristin
审核: zhh
本文转载自泡泡机器人SLAM,文章仅用于学术分享。
摘要
大家好,今天为大家带来的文章 Delving into Localization Errors for Monocular 3D Object Detection。
从单目图像估计 3D 边界框是自动驾驶的重要组成部分,而从此类数据中准确检测 3D 对象非常具有挑战性。在这项工作中,通过大量的诊断实验,我们量化了每个子任务引入的影响,发现“定位误差”是限制单目 3D 检测的重要因素。此外,我们还调查了本地化错误背后的根本原因,分析了它们可能带来的问题,并提出了三种策略。首先,我们重新审视 2D 边界框的中心与 3D 对象的投影中心之间的错位,这是导致定位精度低的重要因素。其次,我们观察到用现有技术准确定位远处物体几乎是不可能的,而这些样本会误导学习网络。为此,我们建议从训练集中删除此类样本,以提高检测器的整体性能。最后,我们还提出了一种新的面向 3D IoU 的损失,用于对象的大小估计,它不受“定位误差”的影响。我们在 KITTI 数据集上进行了广泛的实验,所提出的方法实现了实时检测并大大优于以前的方法。
主要工作与贡献
本文的主要贡献如下:
首先,我们对单目 3D 检测进行了密集的诊断实验。除了发现“定位误差”是限制单目 3D 检测的主要问题外,我们还量化了每个子任务的整体影响。
其次,我们调查了本地化错误背后的根本原因,分析了它可能带来的问题。因此,我们提出了三种针对注释、训练样本和优化损失的新策略,以减轻由定位错误引起的问题,从而提高检测能力。
算法流程
1.单目3D 目标检测统计
图1 对 KITTI 验证集进行评估。评估方式是中等设置下汽车类别的AP40。采样间隔为 10 m。例如,水平轴 20 处的对应值代表 15 m 和 25 m 之间所有样本的整体性能
1.1 观察一
图 1 中最显着的特征是使用地面实况定位时性能的飞跃,达到了与最先进的基于 LiDAR 的方法相似的水平,这表明 定位误差是限制的关键因素。此外,除了深度估计之外,检测 3D目标的投影中心对于恢复对象的 3D 位置也起着重要作用。为此,我们重新审视了 2D 边界框的中心与 3D 对象的投影中心之间的错位。此外,我们还确认了在单目 3D 检测器中保留 2D 检测相关分支的必要性。这样,2D检测作为相关的辅助任务来帮助学习与3D检测共享的特征,这与[24]中丢弃2D检测的现有工作不同。
1.2 观察二
观察 2:图 1 中反映的一个明显趋势是检测精度相对于距离显着降低(非常近距离物体的低性能将在补充材料中讨论)。更重要的是,所有模型都不能准确预测超出一定距离目标。我们发现,由于不可避免的定位错误, 使用现有技术几乎不可能准确地检测到远处的物体。在这种情况下,将这些样本添加到训练集中是否有益成为一个问题。事实上,“坏”样本和“易于检测”样本之间存在明显的领域差距,迫使网络从这些样本中学习会降低其对其他样本的代表能力,从而影响整体性能。基于以上观察,我们提出了两种方案。 第一种方案从训练集中移除较远的样本,第二种方案减少这些样本的训练损失权重。
1.3 观察三
除了定位误差外,还有一些其他重要因素,例如尺寸估计、限制单目 3D 检测(即使我们使用 groundtruth 位置,仍有 27.4% 的改进空间)。该范围内的现有方法倾向于独立优化 3D 边界框的每个部分,[36, 37] 中的研究证实了该策略的有效性。然而, 未能考虑每个损失项对最终度量(即 3D IoU)的贡献可能会导致次优优化。为进一步解决这个问题,我们提出了一种面向 IoU 的 3D 尺寸估计损失。新的 IoU 导向损失根据其贡献率动态调整样本级别中每一侧的损失权重到 3D IoU。
1.4 总结
总之,本文的主要贡献如下:首先,我们对单目 3D 检测进行了各种角度测试实验。除了发现“定位误差”是限制单目 3D 检测的主要问题外,我们还量化了每个子任务的整体影响。其次,我们调查了定位错误背后的根本原因,分析了它可能带来的问题。因此,我们提出了三种针对注释、训练样本和优化损失的新策略,以减轻由定位错误引起的问题,从而提高检测能力。
2. 方法
给定 RGB 图像和相应的相机参数,我们的目标是在 3D 空间中对感兴趣的对象进行分类和定位。每个对象由其类别、2D 边界框 B2D 和 3D 边界框 B3D 表示。
2.1 网络结构
我们基于anchor-free的one-stage 检测器 CenterNet 构建了我们的基线模型。具体来说,我们使用标准 DLA-34 作为我们的基础网络,以实现更好的速度和准确性权衡。最重要的是,七个轻量级头(由一个 3×3 卷积层和一个 1×1 卷积层实现)用于 2D 检测和 3D 检测。更多设计选择和实现细节可以在补充材料中找到。
2.2 误差分析
在本节中,我们将探讨限制单目 3D 检测性能的因素。受 2D 检测领域的 CenterNet [44] 和 CornerNet [21] 的启发,我们通过用真实值替换每个预测并评估性能,对 KITTI 验证集上的不同预测项进行错误分析。具体来说,我们根据 [21, 44] 的将每个输出预测头替换为其真实标签值。如表 1 所示,如果我们将基线模型预测的投影 3D 中心 c w 替换为 其ground-truth,准确率从11.12%提高到18.97%。另一方面,深度可以将准确率提高到 38.01%。如果我们同时考虑深度和投影中心,即用真实结果替换预测的 3D 位置 [x, y, z]3D,那么最明显的改进是 单目3D检测精度低主要是定位误差造成的。另一方面,根据等式 1,深度估计和中心定位共同确定对象在 3D 世界空间中的位置。与单目图像的病态深度估计相比,提高中心检测的精度是一种更可行的方法。
表1.误差分析。左图:我们用真实值替换 3D 检测相关分支的输出。右:我们用预测结果替换了ground truth的值。在 KITTI val 集的中等设置下,用于 3D 检测的指标是 AP40。’项目。center’ 表示图像平面上的投影 3D 中心 c w
表2 图像平面中心偏移(以像素为单位)引起的定位误差(以米为单位)
表2 显示了由不准确的中心检测引入的定位错误。此外,对于 [h, w, l]3D,KITTI 数据集中汽车的平均形状为 [1.53m, 1.63m, 3.53m]。假设所有其他量都是正确的并且定位误差与长度 l 对齐(导致最大容差),IoU 可以通过以下方式计算:
2.3 中心检测校正
为了估计粗中心 c,我们的设计很简单。特别是,我们 1) 使用投影的 3D 中心 c w 作为分支估计粗中心 c 的地面实况和 2) 强制我们的模型同时从 2D 检测中学习特征。这个简单的设计来自我们下面的分析。
分析 1:如图 4 所示,2D 边界框中心 c i 与 3D 边界框的投影中心 c w 之间存在错位。根据公式 1 中的公式,投影的 3D 中心 c w 应该是恢复 3D 对象中心 [x, y, z]3D 的关键。这里的关键问题是粗中心 c 的监督应该是什么。一些作品 [10, 36] 选择使用 2D 框中心 c i 作为其标签,这与 3D 对象中心无关,使得粗中心的 不知道对象的 3D 几何形状。这里我们选择采用投影的 3D 中心 c w 作为粗中心 c 的真实值。这有助于估计粗略中心的分支了解 3D 几何,并且与估计 3D 对象中心的任务更相关,这是定位问题的关键(参见可视化补充材料中的 E 节)。
图2 2D 边界框的中心(蓝色)与图像平面中投影的 3D 中心(红色)之间未对齐的可视化。
分析2:注意SMOKE [24]也使用投影的3D中心c w 作为粗中心c的标签。然而,他们丢弃了与二维检测相关的分支,而我们保留了它们。在我们的设计中,由投影 3D 中心 c w 监督的粗中心 c 也用于估计 2D 边界框中心 ci。通过我们的设计,我们强制一个 2D 检测分支来估计真实 2D 中心和粗 2D 中心之间的偏移 oi = c i – c。这使我们的模型了解对象的几何信息。此外,另一个分支用于估计 2D 边界框的大小,以便共享特征可以学习一些由于透视投影而有利于深度估计的线索。通过这种方式,2D 检测作为辅助任务,有助于学习更好的 3D 感知特征。
2.4IoU 优化
最近,一些基于 LiDAR 的 3D 检测器 [41、43] 应用了面向 IoU 的优化 [32]。然而,确定物体的 3D 中心对于单目 3D 检测来说是一项非常具有挑战性的任务,定位误差通常达到几米(见第 4.4 节)。在这种情况下,如果我们直接应用基于 IoU 的损失函数,与定位相关的子任务(例如深度估计)将压倒其他任务(例如 3D 尺寸估计)。而且,单目图像的深度估计本身就是一个病态问题,这种矛盾会使训练过程崩溃。解开每个损失项并独立优化它们是另一种选择[36],但这忽略了每个组件与最终结果的相关性。为了缓解这个问题,我们提出了一种面向 IoU 的 3D 尺寸估计优化。具体来说,假设除了 3D 尺寸 s = [h, w, l]3D 之外的所有预测项都是完全正确的,那么我们可以得到(推导的细节可以在补充材料中找到):
实验结果
独家重磅课程官网:cvlife.net
1、多传感器融合SLAM 老板:2周搞定激光雷达-视觉-IMU多传感器融合方案!我该如何动手?
2、VIO灭霸:VIO天花板ORB-SLAM3第2期上线!(单/双目/RGBD+鱼眼+IMU+多地图+闭环)
3、视觉SLAM基础: 刚看完《视觉SLAM十四讲》,下一步该硬扛哪个SLAM框架 ?
4、机器人导航运动规划: 机器人核心技术运动规划:让机器人想去哪就去哪!
5、详解Cartographer: 谷歌开源的激光SLAM算法Cartographer为什么这么牛X?
6、深度学习三维重建 总共60讲全部上线!详解深度学习三维重建网络
7、三维视觉基础 详解视觉深度估计算法(单/双目/RGB-D+特征匹配+极线矫正+代码实战)
8、 VINS:Mono+Fusion SLAM面试官:看你简历上写精通VINS,麻烦现场手推一下预积分!
9、图像三维重建课程:视觉几何三维重建教程(第2期):稠密重建,曲面重建,点云融合,纹理贴图
10、系统全面的相机标定课程:单目/鱼眼/双目/阵列 相机标定:原理与实战
全国最棒的SLAM、三维视觉学习社区↓
技术交流微信群
投稿、合作也欢迎联系:simiter@126.com
— 版权声明 —
本公众号原创内容版权属计算机视觉life所有;从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料,版权属原。如果侵权,请联系我们,会及时删除。
来源:SD科技制造
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!