본 논문을 읽고 요약한 내용이며 잘못 해석한 내용이 있을 수 있습니다. 설명에 오류가 있다면 댓글로 알려주시면 감사하겠습니다. 

1. Motivation 

기존 3D object detection 연구들은 multi-modal fusion 전략에 의존함. 그러나 이러한 방식은 modality-specific한 정보들을 간과하기 때문에 결과적으로 성능에 방해가 됨. 따라서 본 논문에서는 개별적인 모달리티별 표현을 학습하고 object detection 과정 동안 고유한 특성을 유지할 수 있도록하는 modality interaction 전략을 새롭게 제안함.

본 논문의 기여는 아래와 같음.

- multi-modal 3D object detection을 위한 새로운 modality interaction 전략을 제안. 기존 전략이 개별 모달리티의 고유한 perception 능력을 저하시키는 한계점을 풀고자 함.

- 이를 해결하기 위해 DeepInteraction 구조를 제안. multimodal representational interaction encoder와 multimodal predictive interaction decoder 구조로 이루어짐. 

- SOTA 달성

2. Methodology 

  1. Encoder : Multi-modal Representational Interaction

LiDAR BEV 특징과 이미지 특징을 각각 학습한 후, 두 모달리티 간 정보 교환을 통해 표현을 refinement함.

(1) Multi-modal Representational Interaction (MMRI)

두 모달리티 간 특징을 교환하는 단계. 이를 위해 cross-modal mapping과 sampling을 수행한 후, attention 기반의 특징 교환을 적용. 

- cross-modal mapping & sampling 

크로스 모달 매핑은 2D 이미지 공간과 3D LiDAR BEV 공간 사이에서 각 픽셀의 위치 대응을 정의하는 과정. 
각 모달리티의 좌표계를 변환하여 상호 연관된 영역을 매핑 
2 (a)는 image -> LiDAR BEV로 상호작용, 2 (b)는 LiDAR BEV -> 이미지로 상호작용 . 이를 통해 두 모달리티 간 특징을 정렬하고, 2D 이미지 정보와 3D point cloud 정보를 연결.

image -> LiDAR : 먼저 3D point cloud의 각 좌표를 multi-camera 이미지에 투영해서 sparse depth map을 만들고 depth completion을 통해서 dense depth map을 만듦. 또한 이미지를 3D로 역투영하기 위해서 이 dense depth map을 사용. (파란색이 LiDAR, 초록색이 이미지) 


LiDAR -> image : BEV 좌표에서 pillar corresponding을 사용해서 LiDAR point를 얻음. 3D point를 camera intrinsic과 extrinsic에 따라 카메라 이미지 프레임 좌표인 (i,j)에 투영. 

- attention-based feature interaction

q : 이미지 모달리티에서 선택된 특징 값 (현재 고려하는 픽셀의 이미지 특징 값)
h^c는 이미지 특징 맵. N_q는 쿼리 q에 대응하는 cross modal neighbors 집합. 즉 이미지 픽셀이 LiDAR BEV 공간에서 대응하는 좌표들의 집합. k,v는 모두 N_q에서 가져옴. (쿼리 q가 속한 모달리티와 다른 모달리티)
어텐션 연산을 사용해서 이미지 특징을 LiDAR BEV 특징과 상호작용하여 정제하는 과정. 
=> 단순히 두 모달리티를 “합치는” 것이 아니라, 어떤 LiDAR 정보가 이미지의 특정 픽셀에 가장 중요한지를 어텐션을 통해 학습하는 방식. 
=> 어텐션을 사용하여, 각 모달리티의 중요한 정보만을 선태적으로 교환 

(2) Intra-model representational learning (IML)

 동시에 멀티모달 상호작용을 보완하는 intra-model representation learning을 수행. 여기서도 (1)이랑 동일한 local attention이 적용됨. 즉, LiDAR BEV는 LiDAR BEV끼리, 이미지는 이미지끼리 학습하면서 정보를 보강 (self-attention 느낌)

(3) Representational integration

두 모달리티 간 정제된 표현을 결합

2. Decoder : Multi-modal Predictive Interaction
 객체 탐지(prediction)을 위한 다중 모달 상호작용을 수행하는 부분.
=> 3 (a)처럼 다른 모달리티를 이용해서 한 모달리티의 3DOD 능력을 향상시키는 것. DETR과 비슷하게 3DOD 문제를 집합 예측 문제로 설정.

Multi-modal Predictive Interaction (MMPI)
각 디코딩 단계에서 이전 층의 예측값을 기반으로 다음 단계를 업데이트.
1) 객체 후보(3D bounding box) 기반 RoI 특징 추출
2) 어텐션 기반의 모달리티 간 상호작용
3) Bounding Box 및 분류 (Classification) 업데이트 

l번째 decoding layer에서 set prediction은 이전 레이어의 객체 쿼리와 bounding box prediction을 가져와 계산됨 (상호작용을 가능하게 하기 위해서)

 

(1) Multi-modal predictive interaction on image representation (MMPI-image) 

3D 객체 후보를 2D 이미지에서 RoIAlign을 사용하여 특징을 추출한 후 예측을 보강.

  1. 3D bounding box proposal과 객체 쿼리를 디코더의 이전 레이어에서 받아옴. 
  2. 이미지 모달리티에서 RoI 특징 추출 (R_n은 이 때 n번째 쿼리에서 추출된 feature로 S xSxC의 크기를 지님) 
  3. 객체 쿼리를 통해 RoI특징을 보강 (1x1 convolution)

(2) Multi-modal predictive interaction on LiDAR representation (MMPI-LiDAR)

위와 비슷하게 디자인됨. LiDAR 표현을 위한 RoI와 관련하여 이전 레이어의 3D 바운딩 박스를 LiDAR BEV 표현 h′p에 투영하고 최소 축 정렬 직사각형을 취함. (자율주행에서 object scale이 일반적으로 작아서 3D bounding box를 두 배로 확대한다고 함) RoI feature의 크기는 MMPI-Image에서와 같음. (C는 channel)

Q -> MMPI-Image -> Q -> MMPI-LiDAR -> Q -> MMPI-Image -> ..

이렇게 점진적으로 번갈아 활용하면서 탐지를 정제하는 것이 핵심 개념.

3. Dataset 
nuScenes

4. Result 

SOTA 달성. But, Transfusion에 비해 속도가 느리다. 

5. Conclusion and Limitation  

 기존의 방식과 다르게 두 모달리티의 표현을 그대로 유지하면서 학습하여 고유한 특성을 살리고자 노력한 접근법이다. 그러나 두 모달리티 표현을 그대로 학습하면서, 교환하며 정보를 학습하기 위해 각각 fusion을 진행하다보니 당연하게도 속도는 느리게 나타났다. (어텐션 연산만 바꿔도 효율성은 높일 수 있을 것 같다) 

두 모달리티의 특징을 정말 잘 활용했다고 할 수 있는가? (단순히 어텐션 연산을 사용했다는 것만으로)

+ Recent posts