18일 전

MemCap: 이미지 설명을 위한 스타일 지식의 기억화

{Xiaoxun Zhang, Xinxiao wu, Wentian Zhao}
초록

이미지에 대한 스타일화된 캡션을 생성하는 것은 이미지의 내용을 정확히 설명하는 것뿐만 아니라 원하는 언어 스타일을 적절히 표현해야 하기 때문에 도전적인 과제이다. 본 논문에서는 언어 스타일에 관한 지식을 메모리 메커니즘을 통해 명시적으로 인코딩하는 새로운 스타일화된 이미지 캡션 생성 방법인 MemCap을 제안한다. 기존 방법들이 언어 모델에 의존하여 스타일 요소를 포착하는 데 집중하는 것과 달리, 본 방법은 학습 코퍼스로부터 학습된 스타일화된 요소들을 기억하는 방식을 채택한다. 특히, 학습 코퍼스 내의 스타일 관련 표현을 인코딩하기 위한 일련의 임베딩 벡터를 포함하는 메모리 모듈을 설계하였다. 스타일 관련 표현을 추출하기 위해, 스타일화된 문장을 언어 스타일을 반영하는 스타일 관련 부분과 시각적 내용을 담는 콘텐츠 관련 부분으로 분해하는 문장 분해 알고리즘을 개발하였다. 캡션 생성 시, MemCap은 주의 메커니즘을 통해 메모리 모듈에서 콘텐츠 관련 스타일 지식을 먼저 추출한 후, 이를 언어 모델에 통합한다. SentiCap 및 FlickrStyle10K 두 가지 스타일화된 이미지 캡션 데이터셋에 대한 광범위한 실험을 통해 본 방법의 효과성을 입증하였다.