12일 전

다양성 훈련을 통한 이미지 문단 캡션 생성

{George Han, er, Luke Melas-Kyriazi, Alex Rush}
다양성 훈련을 통한 이미지 문단 캡션 생성
초록

이미지 단락 캡셔닝 모델은 입력 이미지에 대한 상세한 설명을 생성하는 것을 목표로 한다. 이러한 모델들은 표준 이미지 캡셔닝 모델과 유사한 기법을 사용하지만, 텍스트 생성 과정에서 문장 간 다양성 부족이라는 문제에 직면해 있어 효과성이 제한되어 왔다. 본 연구에서는 이 작업에 시퀀스 수준 학습(Sequence-level training)을 적용하는 방안을 고려한다. 그 결과, 표준적인 자기 비판적 학습(Self-critical training)은 낮은 성능을 보였으나, 트리그램 반복에 대한 통합 페널티를 결합하면 훨씬 더 다양한 단락을 생성함을 확인했다. 이 간단한 학습 방식은 아키텍처의 변경 없이 Visual Genome 단락 캡셔닝 데이터셋에서 최고 성능을 기존의 16.9에서 30.6으로 개선하였으며, METEOR 및 BLEU 지표에서도 성능 향상을 보였다.

다양성 훈련을 통한 이미지 문단 캡션 생성 | 최신 연구 논문 | HyperAI초신경