ViNet: 시각 모달리티의 한계를 넘어서 오디오-시각 주요성 예측

오디오-비주얼 주의 예측을 위한 ViNet 아키텍처를 제안합니다. ViNet은 완전히 합성곱 인코더-디코더 아키텍처입니다. 인코더는 행동 인식을 위해 훈련된 네트워크에서 시각적 특징을 사용하며, 디코더는 다중 계층의 특징을 결합하여 삼차 보간법과 3D 합성곱을 통해 주의 맵을 추론합니다. ViNet의 전체 아키텍처는 개념적으로 간단하며, 인과적이며 실시간으로 작동(60 fps)합니다. ViNet은 오디오를 입력으로 사용하지 않음에도 불구하고, 9개의 다른 데이터셋(시각적 요소만 있는 세 개와 오디오-비주얼 요소가 있는 여섯 개 데이터셋)에서 기존 최고 수준의 오디오-비주얼 주의 예측 모델들을 능가합니다. 또한, AVE 데이터셋에 대한 CC, SIM 및 AUC 지표에서 인간의 성능을 초월하였으며, 이는 우리 지식范围内에선 처음으로 이를 달성한 네트워크입니다 (우리가 알고 있기로 이는 처음으로 이를 달성한 네트워크입니다).ViNet 아키텍처의 변형도 탐구하였습니다. 오디오 특징을 디코더에 추가하여 이를 수행하였습니다. 충분한 훈련 후에는 네트워크가 입력 오디오에 무관하게 동일한 출력을 제공하는 것으로 나타났습니다. 흥미롭게도, 기존 최고 수준 모델들 \cite{tsiami2020stavis}에서도 유사한 행동이 관찰되었습니다. 우리의 연구 결과는 깊은 학습 기반 오디오-비주얼 주의 예측에 관한 이전 연구들과 대조되며, 오디오를 더 효과적으로 통합할 수 있는 미래 연구 방향을 명확히 제시하고 있습니다. 코드와 사전 훈련된 모델들은 https://github.com/samyak0210/ViNet에서 확인할 수 있습니다.注:在最后一句中,“範圍内”被误译为“범위내”,但根据上下文,这里应该是指“据我们所知”。因此,进行了修正。