2달 전

Semi-supervised Video Action Detection을 위한 안정적인 Mean Teacher 방법

Kumar, Akash ; Mitra, Sirshapan ; Rawat, Yogesh Singh
Semi-supervised Video Action Detection을 위한 안정적인 Mean Teacher 방법
초록

본 연구에서는 비디오 행동 검출을 위한 준지도 학습에 중점을 둡니다. 비디오 행동 검출은 분류뿐만 아니라 시공간 정위를 요구하며, 제한된 라벨의 양으로 인해 모델이 신뢰할 수 없는 예측을 하기 쉽습니다. 우리는 개선되고 시간적으로 일관된 의사 라벨로부터 이점을 얻는 간단한 엔드투엔드 교사 기반 프레임워크인 Stable Mean Teacher를 제시합니다. 이 프레임워크는 새로운 오류 복구(Error Recovery, EoR) 모듈에 의존하여, 라벨링된 샘플에서 학생들의 실수를 배우고 이를 교사에게 전달하여 라벨링되지 않은 샘플의 의사 라벨을 개선합니다.또한, 기존의 시공간 손실 함수들은 시간적 일관성을 고려하지 않아 시간적인 불일치에 취약합니다. 이를 해결하기 위해, 우리는 간단하면서도 새로운 시간적 일관성에 초점을 맞춘 픽셀 차이(Difference of Pixels, DoP) 제약 조건을 제시합니다. 이 제약 조건은 일관된 시간적 검출을 가능하게 합니다. 우리는 UCF101-24, JHMDB21, AVA, YouTube-VOS 네 가지 다른 시공간 검출 벤치마크에서 접근법을 평가하였습니다. 본 접근법은 UCF101-24에서 평균 23.5%, JHMDB21에서 16%, AVA에서 3.3%의 성능 향상을 보여주며, 행동 검출을 위한 감독 학습 베이스라인보다 우수한 결과를 나타냈습니다.데이터의 단지 10%와 20%만 사용하여도 UCF101-24와 JHMDB21 각각에서 전체 주석으로 훈련된 감독 학습 베이스라인과 경쟁력 있는 성능을 제공하였습니다. 또한 대규모 데이터셋으로 확장되는 능력을 평가하기 위해 AVA에서 그리고 비디오 객체 분할 작업을 평가하기 위해 YouTube-VOS에서 접근법의 효과를 추가로 평가하였으며, 비디오 영역 내 다른 작업들에도 일반화될 수 있는 능력을 입증하였습니다. 코드와 모델은 공개되어 있습니다.

Semi-supervised Video Action Detection을 위한 안정적인 Mean Teacher 방법 | 최신 연구 논문 | HyperAI초신경