2달 전

HiCM$^2$: Dense Video 캡셔닝을 위한 계층적 압축 메모리 모델링

Kim, Minkuk ; Kim, Hyeon Bae ; Moon, Jinyoung ; Choi, Jinwoo ; Kim, Seong Tae
HiCM$^2$: Dense Video 캡셔닝을 위한 계층적 압축 메모리 모델링
초록

실세계 비디오 문제 해결에 대한 수요가 증가함에 따라, 밀집 비디오 캡셔닝(DVC)에 대한 관심이 높아지고 있습니다. DVC는 자동으로 캡션을 생성하고 비편집된 비디오의 위치를 결정하는 과정을 포함합니다. 여러 연구에서는 DVC의 어려움을 강조하며, 사전 학습(pre-training) 및 외부 메모리와 같은 선행 지식을 활용한 개선 방법을 제시하고 있습니다. 본 연구에서는 인간 기억 계층구조와 인지 과정에서 영감을 받은 인간 중심의 계층적 압축 메모리를 활용하는 모델을 제안합니다.인간과 유사한 기억 재현을 위해 우리는 계층적 메모리와 계층적 메모리 읽기 모듈을 구성하였습니다. 클러스터링 기법과 대형 언어 모델(Large Language Models)을 사용하여 효율적인 계층적 압축 메모리를 구축하였습니다. 비교 실험 결과, 이 계층적 기억 재현 과정이 YouCook2 및 ViTT 데이터셋에서 최고 수준의 성능을 달성함으로써 DVC의 성능 향상을 입증하였습니다.

HiCM$^2$: Dense Video 캡셔닝을 위한 계층적 압축 메모리 모델링 | 최신 연구 논문 | HyperAI초신경