7일 전

NarrativeBridge: 인과적-시제적 서사 구조를 통한 영상 설명 향상

Asmar Nadeem, Faegheh Sardari, Robert Dawes, Syed Sameed Husain, Adrian Hilton, Armin Mustafa
NarrativeBridge: 인과적-시제적 서사 구조를 통한 영상 설명 향상
초록

기존의 영상 캡셔닝 벤치마크 및 모델은 인과적-시간적 내러티브(cause-effect로 연결된 사건의 시계열적 흐름)를 충분히 반영하지 못하며, 이는 영상 콘텐츠 내재의 인과적·시간적 역학을 포착하는 텍스트 설명 생성 능력을 제한한다. 이러한 격차를 보완하기 위해, 본 연구에서는 다음 두 가지 요소로 구성된 NarrativeBridge 접근법을 제안한다: (1) 대규모 언어 모델과 소수 샘플 프롬프팅을 활용하여 생성한 새로운 인과-시간적 내러티브(CTN) 캡셔닝 벤치마크로, 영상 설명에 인과관계를 명시적으로 포함하여 시간적 흐름을 구조화함; (2) 인과와 결과의 동역학을 별도의 인코더로 처리하는 인과-효과 네트워크(Cause-Effect Network, CEN)로, 인과-시간적 내러티브를 효과적으로 학습하고 생성할 수 있도록 설계하였다. 광범위한 실험 결과에 따르면, CEN은 최신 기술 수준의 모델들을 상회하며, MSVD-CTN 및 MSRVTT-CTN 데이터셋에서 각각 17.88 및 17.44의 CIDEr 점수를 기록했다. 데이터셋 간 전이 평가를 통해 CEN의 뛰어난 일반화 능력도 입증되었다. 제안된 프레임워크는 영상에 존재하는 복잡한 인과-시간적 내러티브 구조를 이해하고 정교한 텍스트 설명을 생성할 수 있으며, 영상 캡셔닝 분야에서 중요한 한계를 극복한다. 프로젝트 세부 정보는 https://narrativebridge.github.io/ 에서 확인할 수 있다.

NarrativeBridge: 인과적-시제적 서사 구조를 통한 영상 설명 향상 | 최신 연구 논문 | HyperAI초신경