7일 전

정확하고 빠른 압축 영상 캡셔닝

Yaojie Shen, Xin Gu, Kai Xu, Heng Fan, Longyin Wen, Libo Zhang
정확하고 빠른 압축 영상 캡셔닝
초록

기존의 영상 캡셔닝 접근 방식은 일반적으로 디코딩된 영상에서 프레임을 수동으로 샘플링한 후, 특징 추출 및 캡셔닝 모델 학습과 같은 후속 처리 과정을 거친다. 이 파이프라인에서는 수동적 프레임 샘플링이 영상 내 핵심 정보를 누락시킬 수 있으며, 이로 인해 성능 저하가 발생할 수 있다. 또한 샘플링된 프레임 내 중복 정보가 많아 영상 캡셔닝의 추론 효율성이 낮아질 수 있다. 이러한 문제를 해결하기 위해 우리는 압축된 도메인에서 영상 캡셔닝을 새로운 관점에서 연구한다. 기존 파이프라인에 비해 이 접근법은 다중 이점을 제공한다: 1) 디코딩된 영상의 원시 이미지와 달리, I-프레임, 운동 벡터, 잔차로 구성된 압축 영상은 매우 구분성이 높아, 특화된 모델 설계를 통해 수동적인 프레임 샘플링 없이도 전체 영상을 활용하여 학습이 가능하다; 2) 처리되는 정보의 크기와 중복성이 줄어들어 캡셔닝 모델의 추론 효율성이 향상된다. 본 연구에서는 압축된 영상에서 캡셔닝을 위한 간단하면서도 효과적인 엔드투엔드 트랜스포머 모델을 제안한다. 이 모델은 단순한 구조임에도 불구하고 다양한 벤치마크에서 최신 기준(SOTA) 성능을 달성하며, 기존 방법보다 거의 2배 빠른 속도로 작동함을 보여준다. 코드는 https://github.com/acherstyx/CoCap 에 공개되어 있다.