17일 전
공간적 및 시간적으로 제어된 이미지 캡션 생성
{Shuai Ma, Nan Duan, Ming Zhou, Huaishao Luo, Lei Ji, Kun Yan}

초록
사용자 의도를 반영한 이미지 캡션 생성은 최근 부각되고 있는 요구사항이다. 최근 공개된 'Localized Narratives' 데이터셋은 이미지 캡션 생성 작업에 마우스 트레이스를 추가 입력으로 활용함으로써, 사용자가 이미지 내에서 무엇을 설명할지 제어하는 직관적이고 효율적인 방법을 제시하고 있다. 그러나 트레이스를 효과적으로 활용하여 생성 품질과 제어 가능성을 향상시키는 방법은 여전히 탐색 중이다. 본 논문은 대조 제약(contrastive constraints)과 주의력 안내(attention guidance)를 루프 구조로 연결하는 새로운 모델인 LoopCAG를 제안함으로써 이 문제를 해결하고자 한다. 이 모델은 생성 과정에 명시적인 공간적 및 시계열적 제약을 통합하여, 세 가지 모달리티(시각, 언어, 트레이스) 간의 관계를 더 잘 학습할 수 있도록 한다. 구체적으로, 각 생성된 문장은 대조 학습 전략을 통해 해당 트레이스 시퀀스와 시계열적으로 정렬된다. 또한, 각 생성된 텍스트 토큰은 히우리스틱 공간 주의력 안내 하에 올바른 시각적 객체에 주의하도록 감독된다. 광범위한 실험 결과는 LoopCAG 모델이 세 모달리티 간의 상관관계를 더 잘 학습하며, 트레이스 제어 이미지 캡션 작업에서 최고 수준의 성능(SOTA)을 달성함을 입증한다. 더불어, 생성 과정 중 공간적 및 시계열적 민감도를 분석함으로써 LoopCAG의 제어 가능성과 해석 가능성도 검증되었다.