
초록
이미지 단락 캡셔닝 모델은 입력 이미지에 대한 상세한 설명을 생성하는 것을 목표로 한다. 이러한 모델들은 표준 이미지 캡셔닝 모델과 유사한 기법을 사용하지만, 텍스트 생성 과정에서 문장 간 다양성 부족이라는 문제에 직면해 있어 효과성이 제한되어 왔다. 본 연구에서는 이 작업에 시퀀스 수준 학습(Sequence-level training)을 적용하는 방안을 고려한다. 그 결과, 표준적인 자기 비판적 학습(Self-critical training)은 낮은 성능을 보였으나, 트리그램 반복에 대한 통합 페널티를 결합하면 훨씬 더 다양한 단락을 생성함을 확인했다. 이 간단한 학습 방식은 아키텍처의 변경 없이 Visual Genome 단락 캡셔닝 데이터셋에서 최고 성능을 기존의 16.9에서 30.6으로 개선하였으며, METEOR 및 BLEU 지표에서도 성능 향상을 보였다.