- 개강 첫 주 해야할 일 : 앞으로의 2년간 계획 수립, 한 학기, 한 달 계획 수립 

- 3월: 관심있는 task 탐색

- 4월: 본격 선행연구조사

- 5월: 아이디어 수립 및 실험 

현재까지 관심있는 분야 : VLM for autonomous driving 


2024_Vision Language Models in Autonomous Driving: A Survey and Outlook

1. VLM

  • Multimodal-to-Text (M2T) : takes image-text or video-text as input and produces text as output. LiDAR can formulate the M2T-type VLM.
  • Multimodal-to-Vision (M2V) : accept image-text as input and generate image or video as output. VTF, VTM
  • Vision-to-Text (V2T)

input-output 모달리티에 따라 세 가지 타입으로 분류

2. VLM tasks in Autonomous Driving 

  • Object Referring and Tracking (III-A) 
    • Single or Multiple Object Referring : 2D나 3D 공간에서 특정 오브젝트를 natural language 표현을 사용해 localization. language-conditional object detection 종류로 고려되기도 함.
    • Referred Object Tracking : language를 단서로 하나 또는 그 이상의 오브젝트를 연속된 프레임을 따라 추적. 전통적인 object-tracking task를 일반화
    • Evaluation Metric : autonomous driving의 주류가 되는 데이터셋 사용 (nuScenes, KITTI), 같은 평가 방식 사용.
  • Open-Vocabulary Traffic Environment Perception (III-B)
    • Open-Vocabulary 3D Object Detection (OV-3DOD) : 학습 과정에 사용되지 않은 새로운 범주의 객체를 감지. 어떻게 새로운 3D bounding box를 생성할 것인가와 그 박스들의 클래스를 결정할 것인가의 질문이 있음. 2D 이미지 기반으로 새로운 3D bounding box를 생성하는 것은 상대적으로 어렵기 때문에, LiDAR 센서가 제공하는 포인트 클라우드 데이터를 활용.두 번째 문제에 대해서 기존 연구는 3D bounding box의 의미적 특징을 VTM기반 VLM의 특징 영역에 맞춰 zero-shot 추론 능력을 활용하려고 했음.
    • Open-Vocabulary 3D Semantic Segmentation (OV-3DSS) : 새로운 오브젝트로부터 새로운 point나 mesh를 생성. 보지않은 범주로 분류. 주로 point-level이나 mesh-level의 feature를 VTM기반 large VLM을 사용해 text와 align하는 연구가 이루어짐.
  • Traffic Scene Understanding (III-C)
    • Visual Question Answering (VQA) : 이미지나 비디오에 대한 질의응답. perception, planning, spatial reasoning, temporal reasoning, causal reasoning이 있음.
    • Captioning : scene이 주어지면 textual description을 생성하는 것.
    • Evaluation : Top-N Accuracy, dataset NuScenes-QA, Talk2BEV은 Top-1 accuracy를 평가 메트릭으로 사용. 주관식 답변의 경우 일반적인 메트릭 사용. 예측된 거랑 ground truth간의 관련성이나 정확도를 비교하는 BLEU, METEOR, ROUGE, CIDEr과 같은 메트릭이 사용됨. 최근 연구에서는 조합해서 VQA에 대한 좀 더 포괄적인 평가 진행. 앞선 메트릭의 semantic meaning 부족을 해결하기 위해 Reason2Drive는 reasoning chain의 성능을 측정하는 새로운 평가 프로토콜 제안. 일부는 모델 예측이랑 reference answer와의 유사도를 계산하는 BERTScore, GPT-3.5 Score, LLaMA score등을 쓰기도 함.
  • Language-Guided Navigation (III-D)
  • Conditional Autonomous Driving Data Generation (III-E)

이 중 3D object detection, VQA task에 관심이 있음. -> 관련 연구 분야나 SOTA 논문 읽어보기 


3월 1주차 todo

- OV-3DOD task 조사 : survey 논문이나 정리글 찾아보기 & 연구 동향 대략적으로 파악

- VQA for autonomous driving : 2024년도부터 본격적으로 논문이 나오기 시작함. 2024년 관련 dataset 연구가 활발히 이루어짐. 현재 어떤 식으로 연구가 이루어지고 있는지 & baseline 모델 대략적으로 파악 

 

+ Recent posts