9일 전

다중 모달 동작 예측을 위한 예측적 특징 융합 트랜스포머

Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen, Jürgen Beyerer
다중 모달 동작 예측을 위한 예측적 특징 융합 트랜스포머
초록

비록 인간의 행동 예측(task)은 본질적으로 다중 모달(multi-modal)적인 특성을 지닌 과제이지만, 현재까지 잘 알려진 행동 예측 데이터셋에서 최신의 방법들은 이 데이터를 활용하기 위해 앙상블 기법을 적용하고 단일 모달(single-modal) 예측 네트워크의 점수를 평균화하는 방식을 사용해왔다. 본 연구에서는 조기 단계에서 다중 모달 데이터를 통합할 수 있는 트랜스포머 기반의 모달리티 융합 기법을 제안한다. 제안한 예측적 특징 융합 트랜스포머(ANTICIPATIVE FEATURE FUSION TRANSFORMER, AFFT)는 기존의 대표적인 점수 융합 방식을 초월하며, EpicKitchens-100 및 EGTEA Gaze+ 데이터셋에서 기존 방법들을 능가하는 최신 기준(SOTA) 성능을 달성하였다. 본 모델은 구조적 변경 없이도 새로운 모달리티를 간편하게 추가할 수 있어 확장성이 뛰어나다. 이를 바탕으로, 우리는 EpicKitchens-100 데이터셋에서 오디오 특징을 추출하여 기존 커뮤니티에서 일반적으로 사용되는 특징 세트에 추가하였다.