9일 전
다중 모달 동작 예측을 위한 예측적 특징 융합 트랜스포머
Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen, Jürgen Beyerer

초록
비록 인간의 행동 예측(task)은 본질적으로 다중 모달(multi-modal)적인 특성을 지닌 과제이지만, 현재까지 잘 알려진 행동 예측 데이터셋에서 최신의 방법들은 이 데이터를 활용하기 위해 앙상블 기법을 적용하고 단일 모달(single-modal) 예측 네트워크의 점수를 평균화하는 방식을 사용해왔다. 본 연구에서는 조기 단계에서 다중 모달 데이터를 통합할 수 있는 트랜스포머 기반의 모달리티 융합 기법을 제안한다. 제안한 예측적 특징 융합 트랜스포머(ANTICIPATIVE FEATURE FUSION TRANSFORMER, AFFT)는 기존의 대표적인 점수 융합 방식을 초월하며, EpicKitchens-100 및 EGTEA Gaze+ 데이터셋에서 기존 방법들을 능가하는 최신 기준(SOTA) 성능을 달성하였다. 본 모델은 구조적 변경 없이도 새로운 모달리티를 간편하게 추가할 수 있어 확장성이 뛰어나다. 이를 바탕으로, 우리는 EpicKitchens-100 데이터셋에서 오디오 특징을 추출하여 기존 커뮤니티에서 일반적으로 사용되는 특징 세트에 추가하였다.