8일 전
히ند어 이미지 캡션 생성을 위한 인코더-디코더 기반 프레임워크
{Sivaji Bandyopadhyay, Thoudam Doren Singh, Alok Singh}
초록
최근 들어 이미지 캡션 생성에 관한 연구 활동이 여러 연구자들에게 주목받고 있다. 본 연구는 힌디어 시각 지능 데이터셋(Hindi Visual Genome Dataset)을 활용하여 힌디어 이미지 캡션 생성 문제를 해결하고자 한다. 힌디어는 인도의 공식 언어이자 가장 많이 사용되는 언어이다. 언어적으로 다양성이 높은 인도와 같은 국가에서는 시각적 정보를 자신의 모국어로 이해할 수 있는 수단을 제공하는 것이 매우 중요하다. 본 논문에서는 이미지의 시각적 특징을 인코딩하기 위해 컨볼루션 신경망(Convolutional Neural Network, CNN)을 사용하고, 단방향 LSTM과 양방향 LSTM을 결합한 스택형 장기 기억 단위(Long Short-Term Memory, sLSTM)를 활용하여 힌디어 캡션을 생성하는 인코더-디코더 기반 아키텍처를 제안한다. 이미지의 시각적 특징 표현을 인코딩하기 위해 VGG19 기반 사전 훈련 모델을 사용하고, 디코더 측에서는 sLSTM 아키텍처를 캡션 생성에 적용한다. 제안된 방법의 성능을 검증하기 위해 힌디어 시각 지능 데이터셋에서 모델을 테스트하였으며, 플리커(Flickr) 데이터셋을 이용한 영문 캡션을 통한 교차 검증도 수행하였다. 실험 결과에 따르면, 제안된 방법은 힌디어 캡션 생성 분야에서 기존 최고 수준의 기법들보다 정성적·정량적으로 우수한 성능을 보였다.