2달 전

COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting using Transformers

Denize, Julien ; Liashuha, Mykola ; Rabarisoa, Jaonary ; Orcesi, Astrid ; Hérault, Romain

초록

우리는 행동 인식을 위한 공간-시간 변환기의 초기화를 수행하는 새로운 파이프라인인 COMEDIAN을 제시합니다. 이 과정은 자기 지도 학습과 지식 증류를 포함합니다. 행동 인식은 타임스탬프 단위의 시간적 행동 검출 작업입니다. 우리의 파이프라인은 세 가지 단계로 구성되며, 두 개의 초기화 단계가 포함되어 있습니다. 첫 번째 단계에서는 짧은 비디오를 입력으로 사용하여 공간 변환기를 자기 지도 방식으로 초기화합니다. 또한, 각 짧은 비디오 구간에 맞춰 사전 계산된 특성 뱅크에서 지식 증류를 통해 전역 컨텍스트를 강화하는 시간 변환기를 초기화합니다. 마지막 단계에서는 변환기를 행동 인식 작업에 미세 조정(fine-tune)합니다. SoccerNet-v2 데이터셋을 사용한 실험 결과, 최고 수준의 성능을 보여주며 COMEDIAN의 사전 학습 패러다임의 유효성을 입증하였습니다. 우리의 결과는 사전 학습되지 않은 모델과 비교하여 성능 향상과 더 빠른 수렴 등의 여러 장점을 강조하고 있습니다.