클래스 프로토타입 기반 대조 학습을 통한 다중 레이블 및 세부 분류 교육 영상 분류

최근 유아기 아동들의 온라인 미디어 소비 증가 추세는 교사들이 젊은 학습자를 위한 적절한 교육 콘텐츠를 효과적으로 선별할 수 있도록 데이터 기반 도구의 필요성을 강조하고 있다. 본 논문은 온라인 영상에서 교육 콘텐츠를 탐지하는 접근법을 제안한다. 우리는 독해력과 수학이라는 두 가지 널리 사용되는 교육 콘텐츠 유형에 초점을 맞추며, 각 유형에 대해 공통 학습 기준(Common Core Standards)에 기반한 주요 코드(하위 클래스)를 선정한다. 예를 들어 독해력 코드에는 ‘알파벳 이름’, ‘알파벳 음소’가 포함되고, 수학 코드에는 ‘세기’, ‘분류’ 등이 있다. 동영상은 여러 종류의 교육 콘텐츠를 동시에 포함할 수 있으며, 일부 클래스 간 시각적으로 유사할 수 있으므로(예: ‘알파벳 이름’과 ‘알파벳 음소’), 본 문제를 세밀한 다중 레이블 분류 문제로 설정한다. 이를 해결하기 위해, 다중 레이블을 가진 세밀한 샘플을 효과적으로 처리할 수 있는 새로운 클래스 프로토타입 기반의 감독형 대비 학습(supervised contrastive learning) 방법을 제안한다. 각 클래스에 대해 클래스 프로토타입을 학습하고, 해당 프로토타입과 동일 클래스의 샘플 간 거리를 최소화하는 손실 함수를 사용한다. 동시에, 다른 클래스의 샘플과의 프로토타입 간 거리는 최대화하여 클래스 간 구분력을 강화한다. 시각적 신호와 음성 신호 간의 정합성이 효과적인 이해를 위해 핵심적이므로, 영상의 시각적 및 음성 신호 간 상호작용을 효과적으로 포착하기 위해 다모달 트랜스포머 네트워크를 활용하여 영상 임베딩을 학습한다. 평가를 위해, 교육 전문가들이 세밀한 교육 클래스로 레이블링한 유튜브 교육 영상을 기반으로 한 데이터셋 APPROVE를 제시한다. APPROVE는 총 193시간의 전문가 주석 영상과 19개의 교육 클래스를 포함하고 있다. 제안된 방법은 APPROVE와 유튜브-8M, COIN 등의 다른 벤치마크에서 강력한 기준 모델들을 능가하는 성능을 보였다. 데이터셋은 https://nusci.csl.sri.com/project/APPROVE에서 공개된다.