문화 현장에서 단계별 예술 작품 인식을 위한 비지도 도메인 적응 방안

문화유적지 내 예술 작품을 사용자가 촬영한 시점(1인칭 시점, First Person Vision)의 이미지를 활용하여 인식하면, 방문객과 유적지 관리자 모두를 위한 흥미로운 응용 프로그램을 구축할 수 있다. 그러나 현재의 완전히 감독 학습(fully supervised) 환경에서 작동하는 객체 탐지 알고리즘은 우수한 성능을 달성하기 위해 대량의 레이블링된 데이터를 학습에 사용해야 하며, 이러한 데이터 수집에는 많은 시간과 고비용이 소요된다. 문화유적지의 3D 모델로부터 생성한 합성 데이터를 활용하여 알고리즘을 학습시키는 방식은 이러한 비용을 줄일 수 있다. 그러나 이러한 모델이 실제 이미지로 테스트될 때, 실제 이미지와 합성 이미지 간의 차이로 인해 성능이 크게 저하되는 문제가 발생한다. 본 연구에서는 문화유적지 내 객체 탐지에 대한 비감독 도메인 적응(Unsupervised Domain Adaptation, UDA) 문제를 고려한다. 이 문제를 해결하기 위해, 16종의 다양한 예술 작품에 대한 합성 이미지와 실제 이미지를 포함하는 새로운 데이터셋을 구축하였다. 이를 바탕으로 단계형(1단계) 및 이단계(2단계) 객체 탐지기, 이미지 간 변환(image-to-image translation), 특징 정렬(feature alignment) 기반의 다양한 도메인 적응 기법을 탐색하였다. 특히, 단계형 탐지기가 제시된 환경에서 도메인 이동(domain shift)에 더 강건함을 관찰한 결과, RetinaNet과 특징 정렬을 기반으로 한 새로운 방법인 DA-RetinaNet을 제안하였다. 제안된 방법은 제시된 데이터셋과 Cityscapes 데이터셋 모두에서 기존의 비교 방법들보다 더 우수한 성능을 달성하였다. 본 연구 분야의 발전을 지원하기 위해 데이터셋은 다음 링크에서 공개한다: https://iplab.dmi.unict.it/EGO-CH-OBJ-UDA/이며, 제안된 아키텍처의 코드는 다음 GitHub 링크에서 확인할 수 있다: https://github.com/fpv-iplab/DA-RetinaNet.