7일 전

MART: 일관된 비디오 단락 설명을 위한 메모리 증강형 순환 트랜스포머

Jie Lei, Liwei Wang, Yelong Shen, Dong Yu, Tamara L. Berg, Mohit Bansal
MART: 일관된 비디오 단락 설명을 위한 메모리 증강형 순환 트랜스포머
초록

비디오에 대한 다문장 설명을 생성하는 것은 시각적 관련성뿐만 아니라 문단 내 문장 간 논의적 일관성에 높은 요구를 가지므로, 가장 도전적인 캡셔닝 작업 중 하나입니다. 이러한 목표를 달성하기 위해 우리는 메모리 모듈을 사용하여 트랜스포머 아키텍처를 보강하는 새로운 접근법인 메모리 증강 순환 트랜스포머(Memory-Augmented Recurrent Transformer, MART)를 제안합니다. 이 메모리 모듈은 비디오 세그먼트와 문장 이력에서 고도로 요약된 메모리 상태를 생성함으로써 다음 문장을 보다 정확하게 예측할 수 있도록 도와줍니다(핵심 참조 및 반복 측면에서). 이를 통해 문장 간 일관성 있는 문단 생성을 유도합니다. ActivityNet Captions와 YouCookII라는 두 가지 인기 있는 데이터셋을 대상으로 실시한 광범위한 실험, 인공지능 평가 및 질적 분석 결과, MART는 기준 모델들보다 더 일관성 있고 반복이 적은 문단 캡셔닝을 생성함과 동시에 입력 비디오 이벤트와의 관련성을 유지함을 확인할 수 있었습니다. 모든 코드는 오픈소스로 공개되어 있으며, 다음 주소에서 확인할 수 있습니다: https://github.com/jayleicn/recurrent-transformer

MART: 일관된 비디오 단락 설명을 위한 메모리 증강형 순환 트랜스포머 | 최신 연구 논문 | HyperAI초신경