2달 전
GLAC Net: GLocal Attention Cascading Networks for Multi-image Cued Story Generation GLAC 넷: 다중 이미지 힌트를 이용한 스토리 생성을 위한 GLocal 주의력 캐스케이딩 네트워크
Taehyeong Kim; Min-Oh Heo; Seonil Son; Kyoung-Wha Park; Byoung-Tak Zhang

초록
다중 이미지 유도 스토리 생성 작업은 주어진 이미지 시퀀스로부터 여러 개의 일관된 문장을 구성하는 것입니다. 이 작업의 주요 어려움은 전체 이미지 맥락 내에서 이미지별 문장을 생성하는 방법입니다. 본 연구에서는 전역-국소(glocal) 주의 메커니즘과 컨텍스트 캐스케이딩 메커니즘을 결합하여 시각적 스토리를 생성하는 딥러닝 네트워크 모델인 GLAC Net을 제안합니다. 이 모델은 전체 인코딩 수준과 이미지 특징 수준의 두 가지 주의 수준을 통합하여 이미지에 의존적인 문장을 구성합니다. 표준 주의 구성을 위해서는 많은 매개변수가 필요하지만, GLAC Net은 인코더 또는 이미지 특징의 출력에서 문장 생성기로 하드 연결을 통해 매우 간단한 방식으로 이를 구현합니다. 생성된 스토리의 일관성은 이전 문장의 정보를 다음 문장으로 순차적으로 전달(캐스케이딩)함으로써 더욱 향상됩니다. 우리는 GLAC Net의 성능을 시각적 스토리텔링 데이터셋(VIST)에서 평가하였으며, 최신 기술들과 비교하여 매우 경쟁력 있는 결과를 달성하였습니다. 우리의 코드와 사전 학습된 모델들은 여기서 확인할 수 있습니다.