안녕하세요. 첫 X-review를 쓰게 된 조현석입니다.

글 솜씨가 부족하여 굉장히 오랜 시간이 걸렸는데요… 그리고 분량조절도 실패한 듯 보입니다…

이전에 monodepth1, 2에 관한 사전지식이 있으시면 해당 리뷰를 읽으시는 데 막힘이 없을 것으로 생각됩니다만, 일단은 해당 테스크에 대해 처음 접하시는 독자 분들을 겨냥하고 리뷰를 작성해보았습니다.

감사합니다!

1. Introduction

해당 논문에서 풀고자 하는 “monocular depth estimation”이란 테스크에 대해서 간단히 소개드리겠습니다. “monocular depth estimation”은 single RGB 이미지를 통해서 이미지의 각 픽셀에 대응되는 depth값을 예측하는 문제입니다.

만약 f라는 함수가 input으로 이미지가 들어가고, output으로 해당되는 depth map이 나오는 연산이라면, 함수 f를 구하는 것이 해당 task이고, 이를 DeepLearning을 통해 해결하려는 연구들이 진행되고 있는 추세입니다.

Untitled

먼저, 연구자들을 다른 딥러닝을 활용한 테스크들과 동일하게 supervised-learning으로 모델을 학습시키는 방법을 적용하였는데요. 그러나, supervised learning을 위한 이미지와 대응되는 depth GT로 구성된 데이터 셋을 구축하는 데 드는 비용적인 부분과 모델이 데이터 셋으로 학습했던 scene과 유사한 scene에서만 잘 작동한다는 문제점이 존재하였습니다.

이런 문제를 해결하고자 self-supervised learning방법론을 적용하려는 연구들이 진행되었습니다.

SSL위한 pretext task로 인접프레임(t-1, t+1)을 통해서 현재 시점(t)인 타겟프레임을 reconstruction하는 테스크를 수행합니다. 타겟프레임을 reconstruction하는 과정에서 인접프레임과 타겟프레임 간의 disparity 정보가 사용되는 데, 이 disparity정보는 depth 모델이 예측하게 합니다.

즉, 타겟프레임을 reconstruction을 하려면 disparity가 필요한데, depth 모델이 잘 학습하여 정확한 disparity가 나와야만 pretext task인 타겟프레임 reconstruction이 잘 되게 됩니다. 이런 원리를 이용하여 타겟프레임과 합성된 타겟프레임 간의 차이가 작아지도록(유사해지도록) 학습한다면, 정교한 disparity를 얻을 수 있게 됩니다.

inferece시에는 학습한 모델에 한 장의 이미지를 입력하여 해당 이미지의 disparity를 얻게 되고, disparity를 depth로 바꾸는 수식을 통해서 depth로 변환할 수 있습니다.

그런데 인접프레임을 이용하여, 타겟프레임을 reconstruction할 때, 인접 프레임을 bilinear sampling하여 타겟프레임의 좌표로 backward warpping하는 방식을 사용합니다.(뒤에 파트3의 1번 수식으로 자세히 설명드리겠습니다.)

이때, 두 프레임간의 relative pose를 알아야하는데요. 해당 문제를 해결하기 위해서 pose network를 따로 두어서 학습 시에 사용하게 됩니다.

최종 정리를 하자면, 해당 task는 이미지 한 장을 받아서 각 픽셀에 대응되는 depth를 예측하는 테스크입니다. pretext task로 인접프레임을 이용한 타겟프레임 reconstruction을 수행합니다. 학습 시에 input으로 타겟프레임과 그 인접프레임을 사용하고 disparity를 예측하는 depth network와 타겟과 인접프레임의 relative pose를 예측하는 pose network를 사용합니다. 마지막으로 inferece시엔 한 장의 이미지를 넣어 해당 이미지의 depth map을 뽑아냅니다.

이제, DIFFNet으로 넘어오도록 하겠습니다. 기존의 연구들은 depth estimation task와 semantic segmentation task의 유사성에 집중하였다고 합니다. 실제로도 사람이 scene depth를 추정함에 있어서 semantic information이 중요하게 작용한다고 하는데요. 다른 카테고리의 물체가 제공하는 semantic cue들이 depth 예측에 도움을 준다고 합니다.

또한 per-pixel category를 예측하는 세그멘테이션 네트워크와 per-pixel depth를 예측하는 depth network는 얻고자하는 output의 결과 또한 픽셀 단위의 something으로 굉장히 유사한 것을 알 수 있습니다.

이런 관점에서 segmentation 테스크의 네트워크 구조를 가져옴과 동시에 해당 테스크에서 중요하게 생각하는 semantic and spatial information을 강화하는 방향으로 연구를 진행하였고, 새로운 네트워크 구조인 DIFFNet을 제안하였습니다.

저자들이 주장하는 contribution은 아래와 같습니다.