7일 전

NITS-VC 시스템: VATEX 비디오 캡셔닝 챌린지 2020

Alok Singh, Thoudam Doren Singh, Sivaji Bandyopadhyay
NITS-VC 시스템: VATEX 비디오 캡셔닝 챌린지 2020
초록

비디오 캡셔닝은 비디오의 내용, 이벤트 및 행동을 짧은 텍스트 형식으로 요약하는 과정으로, 비디오 기반 기계 번역, 비디오 감성 분석, 필요로 하는 개인을 지원하는 등 다양한 연구 분야에서 유용하게 활용될 수 있다. 본 논문에서는 VATEX-2020 비디오 캡셔닝 챌린지에 사용된 프레임워크의 시스템 구조를 제시한다. 본 연구에서는 3차원 컨볼루션 신경망(C3D)을 활용하여 비디오의 시각적 특징을 인코딩하고, 디코딩 단계에서 두 개의 장기 단기 기억망(LSTM) 순환 신경망을 별도로 사용하여 시각적 특징과 입력 캡셔닝을 각각 융합한 후, 두 LSTM의 출력값 간 요소별 곱셈(원소 곱)을 수행하여 최종 출력을 생성하는 인코더-디코더 기반 접근법을 채택하였다. 제안하는 모델은 공개 테스트 데이터셋과 비공개 테스트 데이터셋에서 각각 BLEU 점수 0.20과 0.22를 달성하였다.