2달 전

계층적 다중 모달 트랜스포머를 이용한 비디오 요약

Bin Zhao; Maoguo Gong; Xuelong Li
계층적 다중 모달 트랜스포머를 이용한 비디오 요약
초록

비록 순환 신경망(RNN) 덕분에 비디오 요약이 큰 성공을 거두었지만, RNN 기반 방법은 비디오 프레임 간의 전역적 종속성과 다단계 관계를 무시하여 성능에 제한을 초래합니다. 트랜스포머는 이러한 문제를 해결하는 효과적인 모델이며, 기계 번역, 비디오 캡셔닝 등 여러 시퀀스 모델링 작업에서 RNN 기반 방법을 능가합니다. 트랜스포머의 큰 성공과 비디오의 자연 구조(프레임-샷-비디오)에 착안하여, 비디오 요약을 위한 계층적 트랜스포머가 개발되었습니다. 이 모델은 프레임과 샷 간의 종속성을 포착하고, 샷으로 형성된 장면 정보를 활용하여 비디오를 요약할 수 있습니다. 또한, 우리는 오디오와 시각 정보가 모두 비디오 요약 작업에 필수적이라고 주장합니다. 두 가지 정보를 통합하기 위해, 이들은 두 스트림 방식으로 인코딩되며, 계층적 트랜스포머 기반의 다중 모달 융합 메커니즘이 개발되었습니다. 본 논문에서는 제안된 방법을 계층적 다중 모달 트랜스포머(Hierarchical Multimodal Transformer, HMT)라고 표기합니다. 실제적으로, 광범위한 실험 결과는 HMT가 대부분의 전통적인, RNN 기반 및 주의력 기반 비디오 요약 방법들을 능가함을 보여주고 있습니다.

계층적 다중 모달 트랜스포머를 이용한 비디오 요약 | 최신 연구 논문 | HyperAI초신경