16일 전

일관성 유지하기: 반복적 다중 에이전트 통신을 통한 이미지 스트림 기반의 주제 인지 스토리텔링

Ruize Wang, Zhongyu Wei, Ying Cheng, Piji Li, Haijun Shan, Ji Zhang, Qi Zhang, Xuanjing Huang
일관성 유지하기: 반복적 다중 에이전트 통신을 통한 이미지 스트림 기반의 주제 인지 스토리텔링
초록

시각적 스토리텔링은 이미지 시퀀스에서 자동으로 내러티브 문단을 생성하는 것을 목표로 한다. 기존의 접근 방식은 각 이미지에 대해 독립적으로 텍스트 설명을 생성한 후 이를 대략적으로 연결하여 스토리를 구성하는 방식을 사용하는데, 이는 의미적으로 일관성 없는 콘텐츠를 생성하는 문제를 야기한다. 본 논문에서는 이미지 스트림의 전반적인 의미적 맥락을 탐지하기 위해 주제 설명(task)을 도입함으로써 시각적 스토리텔링의 새로운 방법을 제안한다. 이후 주제 설명을 기반으로 스토리를 구성한다. 두 가지 생성 작업을 효과적으로 통합하기 위해, 주제 설명 생성기와 스토리 생성기를 두 개의 에이전트로 간주하고, 반복 업데이트 메커니즘을 통해 동시에 학습하는 다중 에이전트 커뮤니케이션 프레임워크를 제안한다. 제안한 방법은 VIST 데이터셋에서 검증되었으며, 정량적 결과, 아블레이션 연구 및 인공 평가를 통해 기존 최고 수준의 방법들에 비해 더 높은 품질의 스토리를 생성하는 데 우수한 성능을 보였다.

일관성 유지하기: 반복적 다중 에이전트 통신을 통한 이미지 스트림 기반의 주제 인지 스토리텔링 | 최신 연구 논문 | HyperAI초신경