EVP: 역방향 다중 주의 특징 정제 및 정규화된 이미지-텍스트 정렬을 활용한 향상된 시각 인지

본 연구에서는 강화된 시각 인지 네트워크 아키텍처인 EVP(Enhanced Visual Perception)를 제안한다. EVP는 기존의 VPD(Vision Perception Decoder) 연구를 바탕으로 하며, 이는 Stable Diffusion 네트워크를 컴퓨터 비전 작업에 활용할 수 있도록 전환하는 데 기여한 바 있다. 본 연구에서는 두 가지 주요 개선점을 제안한다. 첫째, 고차원 피라미드 레벨로부터 공간 정보를 집계함으로써 특징 학습 능력을 향상시키는 역방향 다중 주의 특징 정제(Inverse Multi-Attentive Feature Refinement, IMAFR) 모듈을 개발하였다. 둘째, Stable Diffusion 백본의 특징 추출 성능을 향상시키기 위한 새로운 이미지-텍스트 정렬 모듈을 제안하였다. 제안된 아키텍처는 다양한 작업에 적합하며, 분류 기반의 박스(bin)를 사용하는 특수 디코더를 활용한 단일 이미지 깊이 추정과, 사전 학습된 디코더를 활용한 참조 세그멘테이션(Referring Segmentation)에서 성능을 입증하였다. 기존의 표준 데이터셋을 대상으로 수행된 종합적인 실험 결과, EVP는 실내 환경(11.8% RMSE 개선, NYU Depth v2), 실외 환경(KITTI)에서의 단일 이미지 깊이 추정 및 참조 세그멘테이션(RefCOCO, IoU 2.53 포인트 개선, ReLA 대비)에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 코드 및 사전 학습된 모델은 공개적으로 제공되며, https://github.com/Lavreniuk/EVP 에서 확인할 수 있다.