12일 전

이미지가 이야기를 전할 때: 단락 설명 생성을 위한 시각적 및 의미 정보의 역할

{Simon Dobnik, Nikolai Ilinykh}
이미지가 이야기를 전할 때: 단락 설명 생성을 위한 시각적 및 의미 정보의 역할
초록

다중 문장으로 구성된 이미지 설명을 생성하는 것은, 이미지 내 주목할 만한 객체들을 일관성 있고 정확하게 묘사하는 문단을 생성하기 위해 우수한 모델이 필요하다는 점에서 도전적인 과제이다. 우리는 장문의 시퀀스로 시각적 장면을 묘사할 때, 다양한 정보 소스가 유익하다고 주장한다. 이러한 정보는 (i) 지각 정보와 (ii) 이미지 속 내용을 어떻게 묘사할지에 대한 의미 정보(언어 정보)를 포함한다. 또한, 단일 모달리티 또는 이들 모달리티의 조합에 대해 두 가지 다른 풀링 메커니즘의 효과를 비교한다. 본 연구에서는 특정한 풀링 메커니즘과 결합될 때, 시각적 입력과 언어적 입력을 모두 활용하는 모델이 정확하고 다양한 문단을 생성하는 데 효과적임을 입증한다. 자동 평가 및 인간 평가 결과에 따르면, 문단 생성 모델에 의미 정보를 시각적 자극과 함께 임베딩하는 것은 단순하지 않으며, 이는 향후 실험을 위한 다양한 제안들을 제기한다.

이미지가 이야기를 전할 때: 단락 설명 생성을 위한 시각적 및 의미 정보의 역할 | 최신 연구 논문 | HyperAI초신경