12일 전

더 깊이 살펴보면 더 풍부하게 보인다: 깊이 인지 이미지 단락 캡셔닝

{Hongzhi Yin, Zi Huang, Yang Li, Yadan Luo, Ziwei Wang}
초록

문장 수준의 이미지 캡션 생성이 널리 보급됨에 따라, 이미지 단락을 자동으로 생성하는 방법은 아직 충분히 탐구되지 않았다. 하나의 문장으로 이미지를 설명하는 것과 달리, 전체 단락으로 이미지를 기술하는 것은 문장을 체계적이고 자연스럽고 다양한 방식으로 구성해야 하므로, 본질적으로 훨씬 더 높은 복잡성을 수반한다. 기존의 이미지 단락 캡션 생성 방법은 관심 객체 및 영역을 나타내는 일련의 문장을 제시하는 방식으로, 이들 설명은 주로 객체와 관심 영역을 포함하는 이미지 조각을 기존의 단일 문장 캡션 생성 모델에 입력하여 생성된다. 그러나 이러한 전략은 입체적인 계층 구조와 중복되지 않는 객체 표현을 보장하기 어렵다. 본 논문에서는 이미지에 대한 단락 캡션을 생성하기 위한 깊이 인식 주의 모델(Depth-aware Attention Model, DAM)을 제안한다. 먼저 이미지 영역의 깊이를 추정함으로써 공간적 위치에 따라 객체들을 구분할 수 있으며, 이를 통해 언어적 디코더가 객체 간의 공간적 관계를 보다 효과적으로 드러낼 수 있도록 안내한다. 이 모델은 논리적이고 자연스러운 방식으로 단락을 완성한다. 주의 메커니즘을 도입함으로써 학습된 모델은 단락 생성 과정에서 문장의 초점을 신속하게 전환하면서도 동일한 객체에 대해 반복적이고 장황한 설명을 피할 수 있다. 제안된 모델의 효과성과 해석 가능성을 검증하기 위해 Visual Genome 데이터셋을 기반으로 광범위한 정량적 실험과 사용자 연구를 수행하였으며, 그 결과 제안 모델의 우수성이 입증되었다.

더 깊이 살펴보면 더 풍부하게 보인다: 깊이 인지 이미지 단락 캡셔닝 | 최신 연구 논문 | HyperAI초신경