GASP: Gated Attention For Saliency Prediction GASP: 주의력 제어를 통한 주요성 예측

주목도 예측은 명시적 주의를 모델링하는 계산 작업을 의미합니다. 사회적 신호는 우리의 주의에 큰 영향을 미치며, 그 결과로 우리의 시선 운동과 행동이 변화됩니다. 이러한 특성의 효과성을 강조하기 위해, 우리는 사회적 신호를 통합하고 그 영향력을 가중하는 데 사용되는 신경망 모델을 제시합니다. 우리의 모델은 두 단계로 구성되어 있습니다. 첫 번째 단계에서는 시선 추적, 시선 방향 추정, 그리고 감정 인식을 통해 두 가지 사회적 신호를 검출합니다. 이러한 특성들은 이미지 처리 연산을 통해 시공간 맵으로 변환됩니다. 변환된 표현들은 두 번째 단계인 GASP(General Attention Saliency Prediction)로 전달되며, 이 단계에서는 후기 융합(late fusion) 기법들을 탐색하여 사회적 신호를 통합하고, 관련 자극에 주의를 집중시키는 두 개의 하위 네트워크를 소개합니다.실험 결과, 후기 융합 접근법은 정적인 통합 방법에서 더 나은 결과를 보였으며, 각 모달리티(modality)의 영향력이 알려지지 않은 비융합 접근법은 순환 모델(recurrent models)과 결합하여 동적인 주목도 예측에서 더 우수한 성능을 나타냈습니다. 우리는 시선 방향과 감정 표현이 사회적 신호가 포함되지 않은 동적인 주목도 모델보다 최소 5% 이상의 실제 데이터와의 일치성을 개선했다는 것을 보여주었습니다. 또한 감정 표현은 GASP 성능을 향상시키는데 기여하며, 이는 주목도 예측에서 감정 편향 주의(affect-biased attention) 고려의 필요성을 지지합니다.