7일 전
MART: 일관된 비디오 단락 설명을 위한 메모리 증강형 순환 트랜스포머
Jie Lei, Liwei Wang, Yelong Shen, Dong Yu, Tamara L. Berg, Mohit Bansal

초록
비디오에 대한 다문장 설명을 생성하는 것은 시각적 관련성뿐만 아니라 문단 내 문장 간 논의적 일관성에 높은 요구를 가지므로, 가장 도전적인 캡셔닝 작업 중 하나입니다. 이러한 목표를 달성하기 위해 우리는 메모리 모듈을 사용하여 트랜스포머 아키텍처를 보강하는 새로운 접근법인 메모리 증강 순환 트랜스포머(Memory-Augmented Recurrent Transformer, MART)를 제안합니다. 이 메모리 모듈은 비디오 세그먼트와 문장 이력에서 고도로 요약된 메모리 상태를 생성함으로써 다음 문장을 보다 정확하게 예측할 수 있도록 도와줍니다(핵심 참조 및 반복 측면에서). 이를 통해 문장 간 일관성 있는 문단 생성을 유도합니다. ActivityNet Captions와 YouCookII라는 두 가지 인기 있는 데이터셋을 대상으로 실시한 광범위한 실험, 인공지능 평가 및 질적 분석 결과, MART는 기준 모델들보다 더 일관성 있고 반복이 적은 문단 캡셔닝을 생성함과 동시에 입력 비디오 이벤트와의 관련성을 유지함을 확인할 수 있었습니다. 모든 코드는 오픈소스로 공개되어 있으며, 다음 주소에서 확인할 수 있습니다: https://github.com/jayleicn/recurrent-transformer