3달 전

오미니소스 웹리-수퍼바이즈드 학습을 통한 영상 인식

Haodong Duan, Yue Zhao, Yuanjun Xiong, Wentao Liu, Dahua Lin
오미니소스 웹리-수퍼바이즈드 학습을 통한 영상 인식
초록

우리는 웹 데이터를 활용하여 비디오 인식 모델을 훈련시키기 위한 새로운 프레임워크인 OmniSource를 소개한다. OmniSource는 웹 기반의 감독 학습(웹리-서플라인드 러닝) 환경에서 이미지, 단편 영상, 긴 트림되지 않은 영상과 같은 다양한 데이터 형식 간의 장벽을 극복한다. 먼저, 작업별로 특화된 데이터 수집을 통해 수집된 다중 형식의 데이터 샘플을 교사 모델을 이용한 자동 필터링을 거쳐 통일된 형태로 변환한다. 이후, 웹 기반 감독 학습에서 다수의 데이터 소스와 형식 간의 도메인 간 격차를 처리하기 위해 공동 훈련 전략을 제안한다. 공동 훈련 과정에서는 데이터 균형 조절, 재샘플링, 다중 데이터셋 믹업(mixup) 등의 우수한 실무 기법들을 도입한다. 실험 결과, 다양한 소스와 형식의 데이터를 활용함으로써 OmniSource는 훈련 과정에서 더 높은 데이터 효율성을 보였다. 인간 레이블링 없이 인터넷에서 크롤링한 단지 350만 장의 이미지와 80만 분의 영상(이전 연구 대비 2% 미만)만을 사용하여 훈련된 모델은 Kinetics-400 벤치마크에서 2D-ConvNet 및 3D-ConvNet 기준 모델의 Top-1 정확도를 각각 3.0%, 3.9% 향상시켰다. OmniSource를 활용함으로써, 비디오 인식 분야에서 다양한 사전 훈련 전략에 대해 새로운 기록을 수립하였다. 본 연구에서 최고 성능을 달성한 모델은 각각 초기 훈련(from-scratch), ImageNet 사전 훈련, IG-65M 사전 훈련 전략에 따라 Kinetics-400 벤치마크에서 각각 80.4%, 80.5%, 83.6%의 Top-1 정확도를 기록하였다.