
초록
기존의 영상 캡셔닝 접근 방식은 일반적으로 디코딩된 영상에서 프레임을 수동으로 샘플링한 후, 특징 추출 및 캡셔닝 모델 학습과 같은 후속 처리 과정을 거친다. 이 파이프라인에서는 수동적 프레임 샘플링이 영상 내 핵심 정보를 누락시킬 수 있으며, 이로 인해 성능 저하가 발생할 수 있다. 또한 샘플링된 프레임 내 중복 정보가 많아 영상 캡셔닝의 추론 효율성이 낮아질 수 있다. 이러한 문제를 해결하기 위해 우리는 압축된 도메인에서 영상 캡셔닝을 새로운 관점에서 연구한다. 기존 파이프라인에 비해 이 접근법은 다중 이점을 제공한다: 1) 디코딩된 영상의 원시 이미지와 달리, I-프레임, 운동 벡터, 잔차로 구성된 압축 영상은 매우 구분성이 높아, 특화된 모델 설계를 통해 수동적인 프레임 샘플링 없이도 전체 영상을 활용하여 학습이 가능하다; 2) 처리되는 정보의 크기와 중복성이 줄어들어 캡셔닝 모델의 추론 효율성이 향상된다. 본 연구에서는 압축된 영상에서 캡셔닝을 위한 간단하면서도 효과적인 엔드투엔드 트랜스포머 모델을 제안한다. 이 모델은 단순한 구조임에도 불구하고 다양한 벤치마크에서 최신 기준(SOTA) 성능을 달성하며, 기존 방법보다 거의 2배 빠른 속도로 작동함을 보여준다. 코드는 https://github.com/acherstyx/CoCap 에 공개되어 있다.