17일 전

심층 합성곱 신경망 기반 인코더-디코더 모델을 통한 개선된 벤골 이미지 캡션 생성

Mohammad Faiyaz Khan, S.M. Sadiq-Ur-Rahman Shifath, Md. Saiful Islam
심층 합성곱 신경망 기반 인코더-디코더 모델을 통한 개선된 벤골 이미지 캡션 생성
초록

이미지 캡셔닝(Image Captioning)은 이미지의 맥락과 관련된 자연어로 문법적으로도 의미적으로도 올바른 텍스트 설명을 생성하는 어려운 과제이다. 벵골어 이미지 캡셔닝(Bengali Image Captioning, BIC) 분야에서 기존 주목할 만한 연구들은 주로 인코더-디코더 아키텍처를 기반으로 하고 있다. 본 연구는 일차원 컨볼루셔널 신경망(1D-CNN)을 활용하여 시퀀스 정보를 인코딩하고, 사전 학습된 ResNet-50 모델을 이미지 인코더로 사용하여 영역 기반 시각적 특징을 추출하는 다모달 아키텍처를 기반으로 한 엔드투엔드 이미지 캡셔닝 시스템을 제안한다. 제안한 방법의 성능은 BanglaLekhaImageCaptions 데이터셋을 기반으로 기존 평가 지표를 사용하여 평가하였으며, 품질 분석을 위해 인간 평가도 수행하였다. 실험 결과, 제안한 언어 인코더가 캡셔닝 텍스트 내의 세부적인 정보를 효과적으로 포착함을 확인하였으며, 이는 시각적 특징과 결합되어 정확하고 다양한 캡셔닝을 생성하는 데 기여하였다. 본 연구는 기존 모든 BIC 연구를 능가하며, BLUE-1에서 0.651, CIDEr에서 0.572, METEOR에서 0.297, ROUGE에서 0.434, SPICE에서 0.357의 점수를 기록하여 새로운 최고 성능(SOTA)을 달성하였다.

심층 합성곱 신경망 기반 인코더-디코더 모델을 통한 개선된 벤골 이미지 캡션 생성 | 최신 연구 논문 | HyperAI초신경