엔드투엔드 밀집 비디오 캡션 생성을 위한 병렬 디코딩

밀도 높은 비디오 캡셔닝은 비디오에서 시간적 위치와 관련된 여러 개의 캡셔닝을 생성하는 것을 목표로 한다. 기존의 방법들은 수많은 수작업으로 구성된 구성 요소에 크게 의존하는 복잡한 '지정-설명' 방식을 따르고 있다. 본 논문에서는 변환기 디코더 상단에 새로 제안한 이벤트 카운터를 연결함으로써, 밀도 높은 캡셔닝 생성을 집합 예측 문제로 포맷화함으로써, 병렬 디코딩을 이용한 간단하면서도 효과적인 엔드투엔드 프레임워크(PDVC)를 제안한다. 실제로 PDVC는 비디오 전체 내용에 대한 포괄적 이해를 바탕으로, 변환기 디코더 위에 새로 제안한 이벤트 카운터를 쌓아, 비디오를 적절한 수의 이벤트 조각으로 정확히 분할한다. 이는 예측된 캡셔닝의 일관성과 가독성을 효과적으로 향상시킨다. 기존 기법들과 비교했을 때, PDVC는 다음과 같은 매력적인 장점들을 지닌다: (1) 중복 제거를 위해 휴리스틱한 비최대 억제(non-maximum suppression) 또는 반복적 이벤트 시퀀스 선택 네트워크에 의존하지 않고, 적절한 크기의 이벤트 집합을 직접 생성할 수 있다; (2) 이중 단계 방식을 채택하는 것과 달리, 이벤트 쿼리의 강화된 표현을 동시에 로컬라이제이션 헤드와 캡셔닝 헤드에 입력함으로써, 두 하위 작업이 최적화 과정을 통해 깊이 상호 연관되고 서로 촉진되도록 한다; (3) 복잡한 부가 기능 없이 ActivityNet Captions 및 YouCook2에서의 광범위한 실험 결과에 따르면, PDVC는 높은 품질의 캡셔닝 결과를 생성할 수 있으며, 로컬라이제이션 정확도가 기존 최첨단 이중 단계 방법과 비슷한 수준임에도 불구하고 이를 초월한다. 코드는 https://github.com/ttengwang/PDVC 에서 제공된다.