17일 전
Learn2Augment: 동작 인식에서 데이터 증강을 위한 비디오 조합 학습
Shreyank N Gowda, Marcus Rohrbach, Frank Keller, Laura Sevilla-Lara

초록
비디오 행동 인식을 위한 데이터 증강 문제를 다룹니다. 기존의 비디오 데이터 증강 전략은 수작업으로 설계되며, 가능한 증강 데이터 포인트의 공간을 무작위로 샘플링하거나 휴리스틱 방식으로 선택합니다. 이 과정에서는 어떤 증강된 데이터 포인트가 더 나은지 사전에 알 수 없으며, 성능 향상에 기여할지 여부를 판단하기 어렵습니다. 본 연구에서는 행동 인식에 효과적인 비디오의 특성을 학습하고, 증강에 사용할 고품질 샘플만을 선택하는 방식을 제안합니다. 특히, 전경 영상과 배경 영상을 합성하는 방식을 데이터 증강 프로세스로 채택함으로써 다양한 실감적인 새로운 샘플을 생성합니다. 우리는 실제로 영상을 합성하지 않고도 어떤 영상 쌍을 증강해야 할지 학습합니다. 이를 통해 가능한 증강 공간을 줄일 수 있으며, 이는 두 가지 장점을 제공합니다. 첫째, 계산 비용을 절감할 수 있고, 둘째, 평균보다 품질이 높은 증강 쌍을 사용함으로써 최종 분류기의 정확도를 향상시킬 수 있습니다. 우리는 희소 학습(few-shot), 반감독 학습(semi-supervised), 완전 감독 학습(fully supervised)에 이르는 모든 학습 설정에서 실험 결과를 제시합니다. Kinetics, UCF101, HMDB51 데이터셋에서 기존의 방법 및 베이스라인 대비 일관된 성능 향상을 관측하였으며, 데이터가 제한된 설정에서는 새로운 최고 성능(SOTA)을 달성했습니다. 특히 반감독 학습 설정에서 최대 8.6%의 성능 향상을 기록하였습니다.