17일 전

TranSalNet: 인지적으로 관련성 있는 시각적 주목성 예측을 향해

Jianxun Lou, Hanhe Lin, David Marshall, Dietmar Saupe, Hantao Liu
TranSalNet: 인지적으로 관련성 있는 시각적 주목성 예측을 향해
초록

변형기 기반 시각적 주목도 예측 - 기존의 합성곱 신경망(Convolutional Neural Networks, CNN)은 주목도 예측을 위한 계산 모델링에서 큰 발전을 이뤘다. 그러나 인간 대뇌 피질에서의 시각적 주의 메커니즘을 정확히 모사하는 것은 여전히 학계에서 도전적인 과제이다. 인간 시각의 특성을 CNN 아키텍처 설계에 통합하는 것이 시각적으로 더 의미 있는 주목도 예측을 가능하게 하며, 이는 매우 중요하다. 그러나 CNN 아키텍처의 본질적인 유도 편향(Inductive Biases)으로 인해 장거리 맥락 정보를 충분히 표현할 수 있는 능력이 부족하다. 이는 CNN 기반 주목도 모델이 인간의 시각적 행동을 모방하는 특성을 포착하는 데 걸림돌이 된다. 반면, 변형기(Transformer)는 자기 주의(Self-attention) 메커니즘을 활용하여 장거리 정보를 효과적으로 인코딩할 수 있는 잠재력을 보여주고 있다. 본 논문에서는 CNN에 변형기 모듈을 통합함으로써 장거리 맥락적 시각 정보를 효과적으로 포착할 수 있는 새로운 주목도 예측 모델을 제안한다. 실험 결과는 변형기가 주목도 예측에 추가적인 가치를 제공하며, 성능 측면에서 시각적 인지적 관련성을 향상시킴을 보여준다. 제안하는 변형기 기반 주목도 모델, TranSalNet은 공개 벤치마크 및 주목도 예측 경진대회에서 우수한 성능을 달성하였다. 본 논문에서 제안한 주목도 모델 TranSalNet의 소스 코드는 다음 링크에서 제공된다: https://github.com/LJOVO/TranSalNet