본 논문을 읽고 요약한 내용이며 잘못 해석한 내용이 있을 수 있습니다. 설명에 오류가 있다면 댓글로 알려주시면 감사하겠습니다.
[Abstract]
Semantic segmentation은 robotics, 특히 autonomous driving에서 중요한 모듈이다. 대부분의 semantic segmentation는 computationally efficient solution이 아닌 accuracy를 향상시키는데 초점을 맞추었다. 대부분의 efficient semantic semgentation algorithm은 확장성 없이 개별로 맞추어 최적화되었고, 그들을 비교할만한 방법도 없다. 본 논문에서는 real-time segmentation benchmarking framework를 제시하고 자율주행을 위한 다양한 sementation 알고리즘에 대해 연구한다. 또한, generic meta-architecture을 구현하였다.
[Motivation]
자율주행과 같은 task에 적용하기 위해 computational efficiency는 중요한 역할을 함에도 불구하고 이전까지 Semantic segmentation 모델의 접근은 accuracy나 robustness에 초점을 맞추었다. 몇몇 연구가 efficient 모델 설계를 제안하기는 했으나, 다른 네트워크 혹은 meta-architecutres 사이의 비교 기준이 아직 없다. 이전 연구들은 전체적인 모델 비교만 있을뿐, 다른 module의 영향을 비교하지 않았다. 이러한 접근으로 연구자들은 필요한 task에 맞는 적절한 design choice를 하기 어렵다.
본 논문에서는 real-time segmentation을 위한 framework를 처음으로 제안한다. 주요 contribution은 아래와 같다.
(1) we provide a modular decoupling of the segmentation architecture into feature extraction and decoding method which is termed as meta-architecture as shown in Figure 1.
(2) A detailed ablation study highlighting the trade-off between accuracy and computational efficiency is presented.
(3) The modular design of our framework allowed the emergence of two novel segmentation architectures using MobileNet and ShuffleNet with multiple decoding methods.
[Methodology]
실험 세팅은 본 논문 참고. 따로 정리할 만한 내용 없음.
SkipNet-ShuffleNet은 Jetson TX2에 배포하여 image resolution 640 x 360에서 초당 15 frame의 real-time 성능을 달성했다.
[Datasets]
train : encoder trained on ImageNet
test : Cityscapes (5000 images with fine annotation, with 20 classes including the ignored class. Another section of the dataset contains coarse annotation with 20,000 labeled images.) (resolution : 512 x 1024)
[Result]
본 논문에서 제시한 framework는 연구자들이 새로운 encoder와 decoder를 시스템적으로 평가하는 방식을 제시하였다. 새로운 computationally efficient model은 GFLOPs에서 SOTA를 달성했다. Jetson TX2에서 ~16 fps의 real-time을 달성했다.
[Limitation]
Test 방식은 GPU에서 GFLOPs를 줄이고 embedded에 적용하는 방식으로 사용되었다. 구조적 효율성을 FLOPs/ 파라미터 등으로 평가하였다. 고정된 이미지 해상도에 대해서만 평가되었다. 초당 fps, 시간만 측정되었고 JetsonTX2에서의 정확도 측면에서는 평가되지 못했다.