ICCV'23 | MetaBEV传感器故障解决港大和amp;诺亚新方案

CV技术指南

2024-04-22 帮助1人

前言现代自动驾驶车辆的感知系统通常从互补的多模态传感器(如LiDAR和摄像机)获取输入。然而，在现实应用中，传感器损坏和故障会导致性能低下，从而影响自动驾驶的安全性。本文提出了一个鲁棒框架，称为MetaBEV，以解决极端的现实世界环境，包括整体六个传感器损坏和两个极端传感器失踪的情况。在MetaBEV中，来自多个传感器的信号首先由特定于模态的编码器处理。随后，初始化一组密集的BEV查询，称为meta-BEV。然后，这些查询被一个BEV-Evolving解码器迭代地处理，该解码器有选择地从LiDAR、摄像机或两者的模态中聚合深层特征。更新后的BEV表示将进一步用于多个3D预测任务。

本文转载自自动驾驶之心

仅用于学术分享，若侵权请联系删除

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

CV各大方向专栏与各个部署框架最全教程整理

【CV技术指南】CV全栈指导班、基础入门班、论文指导班全面上线!!

1前沿速览 ICCV2023|MetaBEV: 为BEV检测与地图分割解决传感器故障

论文：arxiv.org/pdf/2304.09…
代码：github.com/ChongjianGE…
作者单位：香港大学华为诺亚方舟实验室大连理工大学

学新通

2论文思路：

本文提出一种新的M2oE结构，以缓解多任务联合学习中不同任务的性能下降。最后，使用nuScenes数据集，用3D目标检测和BEV地图分割任务对MetaBEV进行评估。实验表明，在完全和损坏的模态上，MetaBEV都比先前的技术有很大的优势。例如，当LiDAR信号缺失时，MetaBEV在vanilla BEVFusion[25]模型的基础上改进了35.5%的检测NDS和17.7%的分割mIoU;而在没有相机信号的情况下，MetaBEV仍然达到了69.2%的NDS和53.7%的mIoU，这甚至比之前在全模态上进行的工作还要高。此外，MetaBEV在规范的感知和多任务学习环境中都比以前的方法表现良好，使用70.4% mIoU刷新了最新的nuScenes BEV map分割技术。

3主要贡献：

MetaBEV是一种新颖的BEV感知框架，用于3D目标检测和BEV地图分割，可以在任意传感器输入下保持弹性(resilient)性能。为了验证其鲁棒性，大量的实际传感器损坏被制作出来并进行了系统的实验和分析。

在训练权重相同的情况下进行三维检测和分割任务时，MetaBEV利用M2oE结构来缓解任务冲突。

MetaBEV在nuScenes数据集[3]上实现了最先进的性能。这是第一个同时针对传感器故障和任务冲突而设计的方法。本文希望MetaBEV能促进未来的研究。

4网络设计：

本文提出MetaBEV在统一的鸟瞰图(BEV)表示空间[18]中通过模态-任意和任务-不可知的学习来解决上述的特征错位和全模态依赖问题。本文认为模态相关(modality-dependent)方法的主要瓶颈是缺乏能够通过融合模块实现不同模态独立融合的设计。因此，本文提出了一种模态-任意BEV-Evolving解码器，它利用跨模态注意力将可学习的meta-BEV查询与单个摄像机特征、LiDAR-BEV特征或两者结合起来，以消除瓶颈。最后，本文应用一些特定任务的头来支持不同的3D感知预测。

学新通

图3:MetaBEV框架的概述。多模态输入分别由摄像机编码器和LiDAR编码器进行处理，以产生的BEV表示。为了生成融合的BEV特征，BEV-Evolving decoder采用多模态BEV表示和一个外部初始化的meta-BEV特征(作为一个查询特征)进行相关计算。特定任务的头采用融合的特征进行3D检测。

学新通

图4:BEV-Evolving block的详细说明。在跨模态可变形注意力层中，本文结合了特定于模型的MLP层，从而能够灵活地计算任意模态的采样偏移量和注意力权值。在FFN层，本文引入了两种MoE选项来缓解多任务学习中的任务冲突。