마스크 변환기(Masked Transformer)를 이용한 단일 과정 밀집 비디오 캡셔닝(End-to-End Dense Video Captioning)

밀도 높은 비디오 캡셔닝은 자르지 않은 비디오 내의 모든 이벤트에 대한 텍스트 설명을 생성하는 것을 목표로 합니다. 이는 이벤트를 감지하고 설명하는 두 가지 과정을 포함합니다. 따라서, 기존의 모든 밀도 높은 비디오 캡셔닝 방법들은 이 두 하위 문제를 해결하기 위해 이벤트 제안 모델과 캡셔닝 모델이라는 두 개의 모델을 구축하였습니다. 이러한 모델들은 각각 별도로 또는 번갈아가며 훈련됩니다. 그러나, 이는 언어적 설명이 이벤트 제안에 직접적으로 영향을 미치지 못하게 하여 정확한 설명 생성에 중요한 부분을 방해합니다. 이를 해결하기 위해, 우리는 밀도 높은 비디오 캡셔닝을 위한 엔드투엔드 트랜스포머 모델을 제안합니다. 인코더는 비디오를 적절한 표현으로 인코딩합니다. 프로포벌 디코더는 다른 앵커들을 사용하여 인코딩된 데이터에서 비디오 이벤트 프로포벌을 형성합니다. 캡셔닝 디코더는 마스킹 네트워크를 사용하여 인코딩된 특징 위에서 프로포벌 이벤트에 주목하도록 제한합니다. 이 마스킹 네트워크는 이벤트 프로포벌을 미분 가능한 마스크로 변환하여, 훈련 중 프로포벌과 캡셔닝 간의 일관성을 보장합니다. 또한, 우리의 모델은 자기 주의 메커니즘(self-attention mechanism)을 사용하여 인코딩 과정에서 효율적인 반복되지 않는 구조(non-recurrent structure)를 활용할 수 있으며, 이를 통해 성능 향상이 이루어집니다. 우리는 ActivityNet Captions 및 YouCookII 데이터셋에서 이 엔드투엔드 모델의 효과를 입증하였으며, 각각 10.12와 6.58의 METEOR 점수를 달성하였습니다.