12일 전

이미지 단락 캡션 생성을 위한 상호작용형 키-값 메모리 증강 주의 메커니즘

{Jinwen Tian, Min Yang, Xiang Ao, Chengming Li, Yu Li, Chunpu Xu}
이미지 단락 캡션 생성을 위한 상호작용형 키-값 메모리 증강 주의 메커니즘
초록

이미지 문단 캡셔닝(Image Paragraph Captioning, IPC)은 이미지의 시각적 내용을 세밀한 문단 형식으로 생성하는 것을 목표로 한다. 깊은 신경망을 활용한 연구에서 큰 진전이 이루어졌으며, 이 과정에서 주의 메커니즘(attention mechanism)이 핵심적인 역할을 수행하고 있다. 그러나 기존의 주의 메커니즘은 과거의 정렬 정보를 무시하는 경향이 있어 반복적 캡셔닝 및 부족한 캡셔닝 등의 문제를 야기한다. 본 논문에서는 디코더 상태의 업데이트 체인과 함께 주의 역사(즉, 주목할 만한 객체의 커버리지 정보)를 지속적으로 추적할 수 있도록, 상호작용형 키-밸류 메모리 증강 주의 모델(Interactive key-value Memory-augmented Attention, IMAP)을 제안한다. 이를 통해 반복적이거나 불완전한 이미지 설명 생성을 방지할 수 있다. 또한, 이미지 영역과 캡셔닝 단어 간의 적응형 정렬을 실현하기 위해 적응형 주의 메커니즘을 도입하였으며, 이는 하나의 이미지 영역이 임의의 수의 캡셔닝 단어에 매핑될 수 있고, 한 단어도 임의의 수의 이미지 영역에 주의를 기울일 수 있도록 한다. 기준 데이터셋(스탠포드 데이터셋)에서 실시한 광범위한 실험을 통해 제안하는 IMAP 모델의 효과성이 입증되었다.

이미지 단락 캡션 생성을 위한 상호작용형 키-값 메모리 증강 주의 메커니즘 | 최신 연구 논문 | HyperAI초신경