2달 전

TV 시청을 통한 고무상의 학습

Samuel Albanie; Andrea Vedaldi

초록

컴퓨터 비전 시스템이 명시적인 감독을 필요로 하는 것과 달리, 인간은 환경에서 다른 사람들을 관찰함으로써 표정을 배울 수 있습니다. 본 논문에서는 이러한 능력을 기계 비전에서도 개발할 수 있는 방법에 대해 살펴봅니다. 시작점으로서, 우리는 동영상에서 객관적으로 측정 가능한 사건들과 표정의 관련성을 연구하는 문제를 고려합니다. 특히, 참가자들이 상당한 금액을 얻기 위해 경쟁하는 퀴즈쇼를 다룹니다. 우리는 동영상에서 게임에 영향을 미치는 사건들과 해당 표정을 객관적이고 자동적으로 추출하여, 연구에 사용할 대량의 라벨링된 데이터를 획득하였습니다. 또한, FER 및 SFEW 2.0 등의 벤치마크를 사용하여 최신 딥 뉴럴 네트워크를 개발하여 표정 인식 성능을 보여주었으며, 얼굴 인증 데이터에서 사전 학습(pre-training)이 이 작업에 매우 유익할 수 있음을 입증하였습니다. 그 다음, 우리는 이러한 모델들을 확장하여 동영상에서 발생하는 사건들을 예측하고, 그로부터 이름 붙일 수 있는 표정(nameable expressions)을 학습하도록 하였습니다. 데이터셋과 표정 인식 모델은 http://www.robots.ox.ac.uk/~vgg/data/facevalue 에서 제공됩니다.