11일 전

제로샷 비디오 분류의 재고찰: 실제 응용을 위한 엔드투엔드 학습

Biagio Brattoli, Joseph Tighe, Fedor Zhdanov, Pietro Perona, Krzysztof Chalupka
제로샷 비디오 분류의 재고찰: 실제 응용을 위한 엔드투엔드 학습
초록

대규모 데이터셋으로 훈련된 딥러닝(DL)은 비디오를 수백 가지 다양한 클래스로 정확하게 분류할 수 있다. 그러나 비디오 데이터는 주석을 달기 위해 비용이 많이 든다. 제로샷 학습(ZSL)은 이 문제에 대한 해결책을 제안한다. ZSL은 모델을 한 번 훈련한 후, 훈련 데이터셋에 존재하지 않는 새로운 클래스에 대해 일반화할 수 있도록 한다. 우리는 비디오 분류에서 ZSL을 위한 최초의 엔드투엔드 알고리즘을 제안한다. 우리의 훈련 절차는 최근의 비디오 분류 연구에서 도출된 통찰을 기반으로 하며, 가변적인 3D CNN을 사용하여 시각적 특징을 학습한다. 이는 이전의 비디오 ZSL 방법들이 사전 훈련된 특징 추출기를 사용한 것과 대조된다. 또한 기존의 평가 기준을 확장한다: 이전 기법들은 훈련 시 테스트 작업을 알 수 없도록 하는 것을 목표로 하지만, 그 목표를 충분히 달성하지 못한다. 우리는 훈련 데이터와 테스트 데이터 간의 도메인 차이를 유도하고, 특정 테스트 데이터셋에 맞게 ZSL 모델을 조정하는 것을 금지한다. 결과적으로 우리는 최신 기술을 크게 앞서는 성능을 달성하였다. 코드, 평가 절차 및 모델 가중치는 github.com/bbrattoli/ZeroShotVideoClassification에서 제공된다.

제로샷 비디오 분류의 재고찰: 실제 응용을 위한 엔드투엔드 학습 | 최신 연구 논문 | HyperAI초신경