16일 전

주의 기반 적대학습을 통한 비지도 영상 요약

{Ioannis Patras, Vasileios Mezaris, Alexandros I. Metsai, Eleni Adamantidou, Evlampios Apostolidis}
초록

이 논문은 비디오의 주요 부분을 식별하기 위해 주의 메커니즘(attention mechanism)을 통합한 새로운 비디오 요약 접근법을 제안하며, 생성적 적대 학습(generative adversarial learning)을 통해 비지도 학습(unsupervised learning) 방식으로 모델을 훈련한다. 기존의 SUM-GAN 모델을 기반으로, 먼저 학습 파라미터 수를 크게 줄이고, 모델 구성 요소에 대해 점진적 학습(incremental training)을 수행하며, 적대적 부분의 업데이트에 단계별 레이블 기반 전략(stepwise label-based strategy)을 적용하는 개선된 버전(SUM-GAN-sl)을 개발한다. 이후, SUM-GAN-sl에 주의 메커니즘을 두 가지 방식으로 도입한다: (i) 아키텍처 내 변분 오토인코더(Variational Auto-Encoder, VAE)에 주의 레이어를 통합한 SUM-GAN-VAAE, 및 (ii) VAE를 결정론적 주의 오토인코더(deterministic attention auto-encoder)로 대체한 SUM-GAN-AAE. SumMe 및 TVSum 두 가지 데이터셋에 대한 실험 평가를 통해, 주의 오토인코더의 도입이 모델의 훈련 속도를 향상시키고 안정성을 높이며, 원래 모델 대비 유의미한 성능 향상을 가져옴을 확인하였고, 제안된 SUM-GAN-AAE가 최신 기술(state-of-the-art) 수준과 경쟁 가능한 성능을 보여줌을 입증하였다.

주의 기반 적대학습을 통한 비지도 영상 요약 | 최신 연구 논문 | HyperAI초신경