8일 전

주의 기반 힌디어 비디오 캡셔닝 프레임워크

{Sivaji Bandyopadhyay, · Thoudam Doren Singh, Alok Singh}
초록

최근 들어 컴퓨터 비전과 자연어 처리 간의 격차를 메우기 위한 활발한 연구가 진행되고 있다. 본 논문에서는 힌디어 비디오 캡션 생성 문제에 초점을 맞추고자 한다. 인도와 같이 언어적으로 다양성이 뚜렷한 국가에서는 시각적 요소를 모국어로 이해할 수 있는 수단을 제공하는 것이 매우 중요하다. 본 연구에서는 소프트 시간적 주의(soft temporal attention) 메커니즘을 확장하여 의미적 주의(semantic attention) 메커니즘을 하이브리드로 도입함으로써, 시스템이 언제 시각적 컨텍스트 벡터와 의미 입력에 집중할지를 결정할 수 있도록 하였다. 입력 비디오의 시각적 컨텍스트 벡터는 3차원 컨볼루션 신경망(3D CNN)을 활용하여 추출하고, 인코딩된 컨텍스트 벡터를 디코딩하기 위해 주의(attention) 모듈을 갖춘 장기 단기 기억(LSTM) 순환 신경망을 사용하였다. 실험은 MSR-VTT 데이터셋을 번역한 후 후속 편집을 거쳐 자체적으로 구축한 힌디어 비디오 캡션 데이터셋을 기반으로 수행하였다. 제안한 시스템은 CIDEr 점수 0.369, METEOR 점수 0.393를 기록하며, RMN(Reasoning Module Networks) 기반 모델을 포함한 다른 기준 모델들을 모두 상회하는 성능을 보였다.

주의 기반 힌디어 비디오 캡셔닝 프레임워크 | 최신 연구 논문 | HyperAI초신경