CNN과 무작위 RNN의 만남: RGB-D 객체 및 장면 인식을 위한 다중 수준 분석으로 향해

객체와 장면 인식은 이미지 이해에서 도전적이나 필수적인 두 가지 과제이다. 특히, 이러한 과제를 처리하기 위해 RGB-D 센서의 활용이 시각적 이해 향상에 중요한 연구 주제로 부상하고 있다. 한편, 컨볼루션 신경망(Convolutional Neural Networks, CNN)을 포함한 깊은 신경망은 수작업으로 설계된 특징을 효과적인 깊은 특징으로 대체함으로써 다양한 시각적 작업에 널리 적용되며, 기존의 방법에 비해 뛰어난 성능을 보이고 있다. 그러나 다층 CNN 모델로부터 얻은 깊은 특징을 효과적으로 활용하는 방법은 여전히 열린 문제로 남아 있다. 본 논문에서는 다중 모달 RGB-D 이미지에서 구분 가능한 특징 표현을 추출하기 위한 새로운 이단계 프레임워크를 제안한다. 첫 번째 단계에서는 사전 학습된 CNN 모델을 백본으로 활용하여 다수의 레벨에서 시각적 특징을 추출한다. 두 번째 단계에서는 완전히 무작위 구조를 가진 재귀 신경망(Recurrent Neural Networks, RNN)을 사용하여 이러한 특징을 고차원 표현으로 효율적으로 매핑한다. CNN 활성화의 고차원성 문제를 해결하기 위해 RNN 내의 무작위성 개념을 확장한 무작위 가중 풀링(Weighted Pooling) 방식을 제안한다. 다중 모달 융합은 RGB와 깊이 스트림 각각의 개별 인식 신뢰도(즉, SVM 점수)를 기반으로 가중치를 계산하여 소프트 투표 방식으로 수행한다. 이는 최종 RGB-D 분류 성능에서 일관된 클래스 레이블 추정을 가능하게 한다. 광범위한 실험 결과는 RNN 단계에서의 완전한 무작위 구조가 CNN 활성화를 구분력 있는 강력한 특징으로 성공적으로 인코딩함을 입증한다. 대표적인 Washington RGB-D 객체 및 SUN RGB-D 장면 데이터셋에서의 비교 실험 결과, 제안한 방법은 객체 및 장면 인식 과제에서 최신 기술 대비 우수하거나 동등한 성능을 달성함을 보여준다. 코드는 다음 링크에서 제공된다: https://github.com/acaglayan/CNN_randRNN.