2달 전

EPIC-Fusion: 제1인칭 행동 인식을 위한 오디오-비주얼 시간 결합

Kazakos, Evangelos ; Nagrani, Arsha ; Zisserman, Andrew ; Damen, Dima
EPIC-Fusion: 제1인칭 행동 인식을 위한 오디오-비주얼 시간 결합
초록

우리는 제1인칭 행동 인식을 위한 다중 모달 융합에 중점을 두고, 시간 오프셋 범위 내에서 모달을 결합하는 새로운 다중 모달 시간 결합 아키텍처를 제안합니다. 이 아키텍처는 RGB, 광유량(Flow), 오디오의 세 가지 모달로 훈련되며, 중간 수준의 융합과 융합된 표현의 희소한 시간 샘플링을 통해 결합됩니다. 기존 연구와 달리, 시간 집계 전에 모달이 융합되며, 시간 동안 공유되는 모달 및 융합 가중치를 사용합니다. 제안된 아키텍처는 엔드투엔드로 훈련되어 개별 모달뿐만 아니라 후기 융합(Late-fusion) 방식보다 우수한 성능을 보입니다.우리는 클래스별로 오디오가 행동 식별뿐만 아니라 상호 작용하는 객체를 인식하는 데 있어 제1인칭 시각에서 중요한 역할을 하는 것을 입증하였습니다. 우리의 방법은 가장 큰 제1인칭 데이터셋인 EPIC-Kitchens의 공개 리더보드를 사용하여 모든 평가 지표에서 이미 본 테스트 세트와 처음 보는 테스트 세트 모두에서 최신 연구 결과를 달성하였습니다.

EPIC-Fusion: 제1인칭 행동 인식을 위한 오디오-비주얼 시간 결합 | 최신 연구 논문 | HyperAI초신경