2달 전

라이브 비디오 캡셔닝

Blanco-Fernández, Eduardo ; Gutiérrez-Álvarez, Carlos ; Nasri, Nadia ; Maldonado-Bascón, Saturnino ; López-Sastre, Roberto J.
라이브 비디오 캡셔닝
초록

밀도 높은 비디오 캡셔닝은 비디오 시퀀스 내에서 이벤트를 감지하고 설명하는 과정을 포함합니다. 전통적인 방법들은 오프라인 환경에서 작동하며, 전체 비디오가 분석용으로 사용 가능하다는 가정을 기반으로 합니다. 반면에, 본 연구에서는 획기적인 패러다임을 소개합니다: 실시간 비디오 캡셔닝(LVC)으로, 캡션은 온라인 방식으로 비디오 스트림에 대해 생성되어야 합니다. 이러한 변화는 이벤트의 부분적 관찰 처리와 행동의 시간적 예측 필요성 등 독특한 도전 과제들을 가져옵니다. 우리는 LVC 문제를 공식적으로 정의하고, 이 온라인 시나리오를 위해 특별히 설계된 혁신적인 평가 지표를 제안하여, 전통적인 지표들보다 그 장점을 입증합니다. LVC의 새로운 복잡성을 해결하기 위해, 우리는 변형 가능한 트랜스포머와 시간 필터링을 결합한 새로운 모델을 제시합니다. 이 모델은 효과적인 비디오 스트림 캡셔닝을 가능하게 합니다. ActivityNet Captions 데이터셋을 이용한 광범위한 실험 결과는 제안된 접근법이 최신 오프라인 방법론과 비교하여 LVC 환경에서 우수한 성능을 보이는 것을 확인하였습니다. 더 나아진 연구를 지원하기 위해, 우리의 모델 결과와 새로운 지표가 통합된 평가 툴킷을 다음과 같이 제공합니다: https://github.com/gramuah/lvc.

라이브 비디오 캡셔닝 | 최신 연구 논문 | HyperAI초신경