2달 전

비디오 동작 검출을 위한 엔드투엔드 반지도 학습

Kumar, Akash ; Rawat, Yogesh Singh
비디오 동작 검출을 위한 엔드투엔드 반지도 학습
초록

이 연구에서는 라벨링된 데이터와 라벨링되지 않은 데이터를 모두 활용하는 비디오 동작 검출을 위한 반監督 학습에 중점을 두고 있습니다. 우리는 라벨링되지 않은 데이터를 효과적으로 활용하는 간단한 엔드투엔드 일관성 기반 접근법을 제안합니다. 비디오 동작 검출은 동작 클래스 예측뿐만 아니라 시공간적 위치 결정도 필요로 합니다. 따라서, 우리는 분류 일관성과 시공간적 일관성이라는 두 가지 유형의 제약 조건을 조사합니다.비디오 내에서 주요 배경과 정적인 영역이 존재함으로써, 비디오 동작 검출을 위해 시공간적 일관성을 활용하는 것이 어려워집니다. 이를 해결하기 위해, 우리는 시공간적 일관성을 위한 두 가지 새로운 정규화 제약 조건을 제안합니다: 1) 시간적 일관성 (temporal coherency), 2) 그래디언트 평활성 (gradient smoothness). 이 두 가지 측면은 비디오에서 동작의 시간 연속성을 활용하며, 라벨링되지 않은 비디오를 동작 검출에 활용하는 데 효과적이 것으로 확인되었습니다.우리는 제안된 접근법의 유효성을 UCF101-24와 JHMDB-21라는 두 개의 다른 동작 검출 벤치마크 데이터셋에서 입증하였습니다. 또한, Youtube-VOS에서 비디오 객체 분할에 대한 제안된 접근법의 유효성을 보여주어 그 일반화 능력을 입증하였습니다. 제안된 접근법은 UCF101-24에서 최근 완전히 감독된 방법들과 비교하여 단지 20%의 주석만 사용해도 경쟁력 있는 성능을 달성하였습니다. UCF101-24에서는 감독 학습 접근법과 비교하여 0.5 f-mAP에서 +8.9%, v-mAP에서 +11% 각각 성능 향상을 보였습니다.

비디오 동작 검출을 위한 엔드투엔드 반지도 학습 | 최신 연구 논문 | HyperAI초신경