2달 전

CAST: 시공간 크로스 어텐션을 이용한 비디오 동작 인식

Lee, Dongho ; Lee, Jongseo ; Choi, Jinwoo
CAST: 시공간 크로스 어텐션을 이용한 비디오 동작 인식
초록

비디오에서 인간 행동을 인식하기 위해서는 공간적과 시간적 이해가 필요합니다. 기존의 대부분 행동 인식 모델은 비디오에 대한 균형 잡힌 공간-시간 이해를 제공하지 못합니다. 본 연구에서는 RGB 입력만으로도 비디오의 균형 잡힌 공간-시간 이해를 달성하는 새로운 두 스트림 아키텍처인 공간과 시간에서의 크로스 어텐션(Cross-Attention in Space and Time, CAST)을 제안합니다. 제안된 병목 크로스 어텐션 메커니즘은 공간 전문 모델과 시간 전문 모델이 정보를 교환하고 시너지적인 예측을 하도록 하여 성능 향상을 이끌어냅니다. 우리는 EPIC-KITCHENS-100, Something-Something-V2, 그리고 Kinetics-400 등 다양한 특성을 가진 공개 벤치마크에서 광범위한 실험을 통해 제안된 방법의 유효성을 검증하였습니다. 우리의 방법은 이러한 데이터셋들에서 일관되게 우수한 성능을 보이는 반면, 기존 방법들의 성능은 데이터셋의 특성에 따라 변동됩니다.

CAST: 시공간 크로스 어텐션을 이용한 비디오 동작 인식 | 최신 연구 논문 | HyperAI초신경