2달 전
라이브 비디오 캡셔닝
Blanco-Fernández, Eduardo ; Gutiérrez-Álvarez, Carlos ; Nasri, Nadia ; Maldonado-Bascón, Saturnino ; López-Sastre, Roberto J.

초록
밀도 높은 비디오 캡셔닝은 비디오 시퀀스 내에서 이벤트를 감지하고 설명하는 과정을 포함합니다. 전통적인 방법들은 오프라인 환경에서 작동하며, 전체 비디오가 분석용으로 사용 가능하다는 가정을 기반으로 합니다. 반면에, 본 연구에서는 획기적인 패러다임을 소개합니다: 실시간 비디오 캡셔닝(LVC)으로, 캡션은 온라인 방식으로 비디오 스트림에 대해 생성되어야 합니다. 이러한 변화는 이벤트의 부분적 관찰 처리와 행동의 시간적 예측 필요성 등 독특한 도전 과제들을 가져옵니다. 우리는 LVC 문제를 공식적으로 정의하고, 이 온라인 시나리오를 위해 특별히 설계된 혁신적인 평가 지표를 제안하여, 전통적인 지표들보다 그 장점을 입증합니다. LVC의 새로운 복잡성을 해결하기 위해, 우리는 변형 가능한 트랜스포머와 시간 필터링을 결합한 새로운 모델을 제시합니다. 이 모델은 효과적인 비디오 스트림 캡셔닝을 가능하게 합니다. ActivityNet Captions 데이터셋을 이용한 광범위한 실험 결과는 제안된 접근법이 최신 오프라인 방법론과 비교하여 LVC 환경에서 우수한 성능을 보이는 것을 확인하였습니다. 더 나아진 연구를 지원하기 위해, 우리의 모델 결과와 새로운 지표가 통합된 평가 툴킷을 다음과 같이 제공합니다: https://github.com/gramuah/lvc.