16일 전
일관성 유지하기: 반복적 다중 에이전트 통신을 통한 이미지 스트림 기반의 주제 인지 스토리텔링
Ruize Wang, Zhongyu Wei, Ying Cheng, Piji Li, Haijun Shan, Ji Zhang, Qi Zhang, Xuanjing Huang

초록
시각적 스토리텔링은 이미지 시퀀스에서 자동으로 내러티브 문단을 생성하는 것을 목표로 한다. 기존의 접근 방식은 각 이미지에 대해 독립적으로 텍스트 설명을 생성한 후 이를 대략적으로 연결하여 스토리를 구성하는 방식을 사용하는데, 이는 의미적으로 일관성 없는 콘텐츠를 생성하는 문제를 야기한다. 본 논문에서는 이미지 스트림의 전반적인 의미적 맥락을 탐지하기 위해 주제 설명(task)을 도입함으로써 시각적 스토리텔링의 새로운 방법을 제안한다. 이후 주제 설명을 기반으로 스토리를 구성한다. 두 가지 생성 작업을 효과적으로 통합하기 위해, 주제 설명 생성기와 스토리 생성기를 두 개의 에이전트로 간주하고, 반복 업데이트 메커니즘을 통해 동시에 학습하는 다중 에이전트 커뮤니케이션 프레임워크를 제안한다. 제안한 방법은 VIST 데이터셋에서 검증되었으며, 정량적 결과, 아블레이션 연구 및 인공 평가를 통해 기존 최고 수준의 방법들에 비해 더 높은 품질의 스토리를 생성하는 데 우수한 성능을 보였다.