2달 전

선택적 구조화된 상태 공간을 이용한 장편 비디오 이해

Jue Wang; Wentao Zhu; Pichao Wang; Xiang Yu; Linda Liu; Mohamed Omar; Raffay Hamid
선택적 구조화된 상태 공간을 이용한 장편 비디오 이해
초록

장기 비디오에서 복잡한 시공간 종속성을 효과적으로 모델링하는 것은 여전히 해결되지 않은 문제입니다. 최근 제안된 구조화된 상태 공간 시퀀스(S4) 모델은 그 선형 복잡성으로 인해 이 분야에서 유망한 방향을 제시합니다. 그러나, 모든 이미지 토큰을 동등하게 처리하는 S4 모델의 접근 방식이 효율성과 정확성에 부정적인 영향을 미칠 수 있다는 것을 보여주었습니다. 이러한 한계를 극복하기 위해, 경량 마스크 생성기를 사용하여 정보가 많은 이미지 토큰을 적응적으로 선택하여 장기 시공간 종속성을 더 효율적이고 정확하게 모델링하는 새로운 Selective S4(즉, S5) 모델을 제안합니다. 이전 트랜스포머에서 사용된 마스크 기반 토큰 축소 방법과 달리, 우리의 S5 모델은 모멘텀 업데이트된 S4 모델의 지침을 활용하여 밀집된 자기 주의(self-attention) 계산을 피합니다. 이는 덜 정보가 있는 토큰을 효율적으로 배제하고 다양한 장기 비디오 이해 작업에 더 효과적으로 적응할 수 있게 합니다. 그러나 대부분의 토큰 축소 방법과 마찬가지로, 정보가 많은 이미지 토큰이 잘못 삭제될 가능성이 있습니다. 이를 개선하기 위해, 우리는 우리의 모델이 짧은 입력 비디오를 사용하여 더 긴 시간적 맥락을 예측할 수 있도록 하는 새로운 장단기 마스크 대비 학습(Long-Short Masked Contrastive Learning, LSMCL) 접근법을 제안합니다. 우리는 세 가지 도전적인 장기 비디오 이해 데이터셋(LVU, COIN 및 Breakfast)을 사용하여 광범위한 비교 결과를 제시하며, 이 결과는 우리의 접근 방식이 최대 9.6%의 정확도 향상과 함께 이전 최신 기술인 S4 모델보다 메모리 용량을 23% 줄이는 데 일관되게 우수함을 입증합니다.

선택적 구조화된 상태 공간을 이용한 장편 비디오 이해 | 최신 연구 논문 | HyperAI초신경