YouTube-8M: 대규모 비디오 분류 벤치마크

최근 컴퓨터 비전 분야의 많은 발전은 대규모 데이터셋에 기인하고 있습니다. 오픈 소스 머신 러닝 소프트웨어 패키지와 저렴한 상용 하드웨어는 대규모로 새로운 접근 방식을 탐색하는 데 필요한 진입 장벽을 낮추었습니다. 수백만 개의 예제를 몇 일 안에 학습할 수 있는 모델을 훈련시키는 것이 가능해졌습니다. 이미지 이해를 위한 대규모 데이터셋(예: ImageNet)이 존재하지만, 동일한 규모의 비디오 분류 데이터셋은 아직 없습니다.본 논문에서는 YouTube-8M, 가장 큰 다중 라벨 비디오 분류 데이터셋을 소개합니다. 이 데이터셋은 약 800만 개의 비디오(50만 시간)로 구성되어 있으며, 4800개의 시각적 엔티티로 어노테이션이 되어 있습니다. 비디오와 그 라벨을 얻기 위해 YouTube 비디오 어노테이션 시스템을 사용하여 주요 주제로 비디오를 라벨링했습니다. 이러한 라벨은 기계가 생성했지만, 메타데이터와 쿼리 클릭 신호 등 다양한 인간 기반 신호에서 유래하여 정밀도가 매우 높습니다. 우리는 자동화된 방법과 수작업 방법으로 비디오 라벨(Knowledge Graph 엔티티)을 필터링하였으며, 이를 위해 인간 평가자에게 해당 라벨이 시각적으로 인식 가능한지 여부를 물었습니다. 그런 다음, 각 비디오를 초당 한 프레임씩 디코딩하고, ImageNet에서 사전 훈련된 딥 CNN을 사용하여 분류 계층 바로 직전의 은닉 표현(hidden representation)을 추출하였습니다. 마지막으로, 프레임 특성을 압축하여 특성과 비디오 단위 라벨을 다운로드할 수 있도록 제공하였습니다.우리는 이 데이터셋에서 다양한(상대적으로 간단한) 분류 모델들을 훈련시켰으며, 일반적인 평가 지표들을 사용하여 성능을 평가하고 베이스라인으로 보고하였습니다. 데이터셋의 크기에 불구하고 일부 모델들은 TensorFlow를 사용하여 단일 머신에서 하루 미만으로 수렴되는 경우도 있습니다. 우리는 TensorFlow 모델 훈련 코드와 지표 계산 코드를 공개할 계획입니다.