16일 전

지식 기반 스토리텔러: 상식 기반 생성 모델을 활용한 시각적 스토리텔링

{Xu sun, Zhiyi Yin, Lei LI, Xiaodong He, Pengcheng Yang, Fuli Luo, Peng Chen}
지식 기반 스토리텔러: 상식 기반 생성 모델을 활용한 시각적 스토리텔링
초록

시각적 스토리텔링(VST) 작업은 이미지 스트림을 입력으로 받아 합리적이고 일관성 있는 문단 수준의 스토리를 생성하는 것을 목표로 한다. 캡션과 달리, 캡션은 이미지 내용을 직접적이고 문자 그대로 묘사하는 반면, VST 작업에서의 스토리는 이미지에 직접 나타나지 않는 다수의 상상적 개념을 포함하는 경향이 있다. 이는 인공지능 에이전트가 암묵적인 일반지식(commonsense knowledge)을 바탕으로 상상적 개념에 대해 추론하고 연관성을 형성하여 이미지 스트림을 적절히 묘사하는 합리적인 스토리를 생성할 수 있어야 함을 의미한다. 따라서 본 연구에서는 외부 지식 기반에서 중요한 일반지식을 도입함으로써 시각적 스토리텔링을 효과적으로 수행하는 일반지식 기반 생성 모델을 제안한다. 제안한 방법은 먼저 지식 기반에서 후보 지식 그래프들을 추출한다. 이후, 가장 정보량이 풍부한 일반지식을 효과적으로 통합하기 위해 정교하게 설계된 시각 인지형 방향 인코딩 스키마를 채택한다. 또한, 디코딩 과정에서 출력 텍스트 내의 의미적 유사도를 최대화함으로써 생성된 텍스트의 일관성을 강화한다. 실험 결과, 제안한 방법은 최첨단 기술 대비 크게 우수한 성능을 보였으며, CIDEr 점수에서 29%의 상대적 개선을 달성하였다. 추가로 일반지식과 의미적 관련성 기반의 목적 함수를 도입함으로써 생성된 스토리는 더욱 다양하고 일관성 있는 특성을 보였다.

지식 기반 스토리텔러: 상식 기반 생성 모델을 활용한 시각적 스토리텔링 | 최신 연구 논문 | HyperAI초신경