본 논문을 읽고 요약한 내용이며 잘못 해석한 내용이 있을 수 있습니다. 설명에 오류가 있다면 댓글로 알려주시면 감사하겠습니다. 

1. Motivation 

전체 BEV scene level에서 fusion을 진행하는 것은 foreground instance와 배경 사이의 내재적인 차이점을 무시하고 이는 성능을 저하시킴. 

3DOD를 위한 BEV 기반의 기존 다중 모달 융합 기법이 가지는 한계를 극복하기 위해, 인스턴스-장면 협업 융합(Instance-Scene Collaborative Fusion) 개념을 제안. 기존 방식이 장면 수준의 융합(Scene-Level Fusion)만을 고려하는 데 반해, 본 연구에서는 개별 객체(인스턴스) 수준에서도 다중 모달 데이터를 활용하여 3D 객체 탐지 성능을 향상하는 방법을 제안. => 작은 객체를 잘 탐지할 수 있음. 

  • 기존 BEV 기반 다중 모달 융합 방식이 놓치고 있던 인스턴스 수준의 정보를 명시적으로 통합하여 새로운 Instance-Guided Fusion (IGF)Hierarchical Scene Fusion (HSF) 모듈을 제안. 
  • 객체 중심의 탐지 성능 개선 
  • nuScnese 데이터셋에서 최고 성능 달성. 

2. Methodology 

Fig 2. Overview of our IS-Fusion framework

전체 과정

  • Multimodal Input Encoding: 각 scene은 LiDAR point cloud P와 LiDAR 센서와 잘 캘리브레이트된 N 개의 카메라로 캡처된 RGB 이미지로 표현됨. PointCloud는 VoxelNet, image는 SwinTransformer를 사용해 객체화함. (Voxel Encoder, Image Encoder) 
  • Multimodal Encoder: multimodal encoder는 앞에서 얻은 두 개의 feature를 cross-modality feature fusion을 수행해 융합된 BEV feature를 생성함. 기존의 방식과 달리, scene level에서만 fusion을 진행하지 않고 instance-level과 scene-level representation을 만듦.
  • Multimodal Decoder: multimodal decoder는 BEV representation으로부터 최종 3D detection을 수행하는 부분. decoder는 detr에서와 동일하게 사용. 학습 과정에서 Hungarian algorithm이 적용됨. Focal loss, L1 loss가 classification과 3D bounding box regression에 각각 사용.

2.1. Hierarchical Scene Fusion(HSF) 모듈

Fig 3. Illustration of HSF module.

-> 직관적으로 다양한 feature 세분성은 다양한 수준에서 scene context를 캡처한다. (point 수준에서는 객체의 컴포넌트에 대한 세부적인 특징을 제공하는 반면, grid/region 수준에서의 특징은 더 넓은 장면 구조와 객체 분포를 감지할 수 있는 능력이 있음)

  1. Point-to-Grid Transformer: LiDAR Point Cloud를 grid 수준으로 변환하여 BEV 공간에서 장면의 계층적 특징을 학습. 
  2. Grid-to-Region Transformer: 인접한 그리드 간 상호작용을 통해 전체 장면의 글로벌 문맥 정보를 학습. local과 global multimodal scene context를 통합할 수 있도록 함.

2.2. IGF 모듈

Fig 4. Illustration of IGF module.

  1. Instance Candidates Selection: BEV에서 특정 객체의 중심을 찾고(scene feature에 keypoint detection head를 적용), 객체별 특징을 추출 (Centerbased 3d object detection 논문에 따라 selection 수행)
  2. Instance Context Aggregation: 선택된 객체가 주변 환경과 어떻게 연관되는지 학습.
  3. Instance-to-Scene Transformer: 객체 수준 특징을 장면 전체의 BEV 표현과 융합하여 탐지 성능을 향상.

2.3. End-to-End 훈련 과정

  1. nuScenes 데이터셋을 기반으로 모델 학습
  2. 다양한 데이터 증강 기법 및 Transformer 기반 구조를 활용하여 탐지 성능 최적화.

3. Dataset

nuScenes

4. Result

Table 1. 3D Object Detection Performance on the nuScenes test set.
Table 2. Performance comparison on the nuScenes validation set.

SOTA 달성. But, 속도는 SparseFusion에 비해 느림. 

5. Limitation

  • 연산량 증가: 기존의 단순 BEV 기반 융합 기법보다 계산량이 증가하여 실시간 시스템 적용이 어려울 가능성이 있음. 
  • 일부 객체에서 성능 저하: 일부 작은 객체에서의 탐지 성능은 여전히 한계가 있음.
  • 다른 센서 융합 부족: radar 등의 추가적인 센서 융합을 고려하지 않음.
  • 일반화 성능 : 다양한 날씨, 빛 조건에서 평가되지 않음.

 

+ Recent posts