12일 전

AC-SUM-GAN: 비지도 비디오 요약을 위한 액터-크리틱과 생성적 적대 신경망의 연결

{Ioannis Patras, Vasileios Mezaris, Alexandros I. Metsai, Eleni Adamantidou, Evlampios Apostolidis}
초록

이 논문은 비지도 비디오 요약을 위한 새로운 방법을 제안한다. 제안하는 아키텍처는 액터-크리틱 모델을 생성적 적대 신경망(GAN)에 통합하여, 요약에 사용될 중요한 비디오 조각(키 프래그먼트)의 선택을 시퀀스 생성 작업으로 공식화한다. 액터와 크리틱은 점진적으로 키 프래그먼트를 선택하도록 이끄는 게임에 참여하며, 각 단계에서의 선택 결과는 판별기(Discriminator)로부터 보상(reward)을 받는다. 설계된 학습 워크플로우는 액터와 크리틱이 행동 공간을 탐색하고, 키 프래그먼트 선택을 위한 정책을 자동으로 학습할 수 있도록 한다. 또한, 학습 종료 후 최적 모델을 선택하기 위한 제안된 기준은 데이터로부터 학습되지 않는 학습 과정의 파라미터(예: 정규화 계수 σ)에 적절한 값을 자동으로 선택하는 것을 가능하게 한다. SumMe 및 TVSum이라는 두 가지 벤치마크 데이터셋에 대한 실험 평가 결과, 제안하는 AC-SUM-GAN 모델은 비지도 방법 대비 일관된 우수한 성능을 보이며, 지도 학습 방법과도 경쟁 가능한 성능을 달성함을 확인하였다.

AC-SUM-GAN: 비지도 비디오 요약을 위한 액터-크리틱과 생성적 적대 신경망의 연결 | 최신 연구 논문 | HyperAI초신경