2달 전

시각적 주의 예측을 위한 문맥 인코더-디코더 네트워크

Alexander Kroner; Mario Senden; Kurt Driessens; Rainer Goebel
시각적 주의 예측을 위한 문맥 인코더-디코더 네트워크
초록

자연 이미지에서 주요 영역을 예측하기 위해서는 장면에 존재하는 객체를 감지해야 합니다. 이 어려운 작업을 위해 강건한 표현을 개발하려면 여러 공간 스케일에서 고수준 시각적 특성을 추출하고 문맥 정보로 보완해야 합니다. 그러나 인간의 주시 지도를 설명하기 위한 기존 모델들은 이러한 메커니즘을 명시적으로 포함하지 않습니다. 본 연구에서는 대규모 이미지 분류 작업으로 사전 학습된 컨볼루션 신경망(CNN) 기반의 접근법을 제안합니다. 해당 아키텍처는 인코더-디코더 구조를 형성하며, 다양한 확장률(dilation rates)을 가진 여러 컨볼루션 레이어 모듈을 포함하여 병렬로 다중 스케일 특성을 포착합니다. 또한, 전역적인 장면 정보와 결합하여 시각적 주목도를 정확히 예측할 수 있도록 결과 표현들을 통합합니다. 제안된 모델은 두 개의 공개 주목도 벤치마크에서 여러 평가 지표에 걸쳐 경쟁력 있고 일관된 결과를 달성하였으며, 다섯 개의 데이터셋과 선택된 예제를 통해 제안된 접근법의 효과성을 입증하였습니다. 최신 접근법들과 비교하여, 본 네트워크는 경량화된 이미지 분류 백본(backbone)을 기반으로 하므로, (가상) 로봇 시스템 등 계산 자원이 제한된 응용 프로그램에서 복잡한 자연 장면에서 인간의 주시점을 추정하기에 적합한 선택입니다.

시각적 주의 예측을 위한 문맥 인코더-디코더 네트워크 | 최신 연구 논문 | HyperAI초신경