2달 전
주목도에 더 많은 주의를 기울이기: 주목도와 맥락 주의를 활용한 이미지 캡셔닝
Marcella Cornia; Lorenzo Baraldi; Giuseppe Serra; Rita Cucchiara

초록
이미지 캡셔닝은 최근에 딥 캡셔닝 아키텍처가 뛰어난 성과를 보여주면서 많은 주목을 받고 있습니다. 이 아키텍처는 이미지 표현을 추출하기 위해 합성곱 신경망(Convolutional Neural Networks)을, 그리고 해당 캡셔닝을 생성하기 위해 순환 신경망(Recurrent Neural Networks)을 결합하여 사용합니다. 동시에, 인간의 시선 고정점을 예측할 수 있는 주요성 예측 모델(saliency prediction models) 개발에도 상당한 연구 노력이 투입되었습니다. 주요성 정보는 이미지에서 중요한 부분과 그렇지 않은 부분을 나타내어 이미지 캡셔닝 아키텍처를 조건화하는 데 유용할 수 있지만, 이러한 두 기술을 통합하는 연구는 아직 어려움을 겪고 있습니다. 본 연구에서는 주요성 예측 모델이 이미지의 어떤 부분이 주요하고 어떤 부분이 문맥적인지를 나타내는 조건화를 활용하여, 생성 순환 신경망(generative recurrent neural network)이 캡셔닝 생성 과정에서 입력 이미지의 다른 부분에 집중할 수 있는 이미지 캡셔닝 접근법을 제안합니다. 대규모 데이터셋에서 수행된 광범위한 정량적 및 정성적 실험을 통해, 우리의 모델은 주요성을 고려하지 않는 기존의 캡셔닝 베이스라인들과 비교해 우수한 성능을 보임을 입증하였으며, 주요성과 캡셔닝을 결합한 다양한 최신 접근법들보다도 더 나은 결과를 얻었습니다.