クラスプロトタイプを用いた対照学習によるマルチラベルおよび細粒度教育動画の分類

幼少期の子どもたちにおけるオンラインメディアの利用が増加する中、教育者が必要な教育コンテンツを適切に選別できるようにするデータ駆動型ツールの開発が求められている。本論文では、オンライン動画における教育的コンテンツの検出を目的としたアプローチを提案する。対象とする教育コンテンツの主要クラスは、読解力(literacy)と算数(math)の2つに限定する。各クラスに関して、共通カリキュラム基準(Common Core Standards)に基づき、重要なサブクラス(コード)を設定する。たとえば、読解力のコードには「アルファベットの名前(letter names)」「アルファベットの発音(letter sounds)」が含まれ、算数のコードには「数え上げ(counting)」「分類(sorting)」などが含まれる。これらのコンテンツは複数同時に存在する可能性があり、視覚的に類似する場合もある(例:「アルファベットの名前」と「アルファベットの発音」)。このような性質から、本研究では細粒度かつマルチラベル分類問題として定式化する。本研究では、複数のラベルに紐づく細粒度サンプルを効果的に処理できる、新たなクラスプロトタイプを活用した教師あり対照学習(supervised contrastive learning)手法を提案する。各クラスに対してクラスプロトタイプを学習し、そのプロトタイプと同クラスのサンプル間の距離を最小化する損失関数を導入する。同時に、異なるクラスのサンプルとプロトタイプ間の距離を最大化する。視覚的および音声的信号の整合性が効果的な理解に不可欠であるため、動画の埋め込み表現を学習する際、視覚と音声の相互作用を捉えるためのマルチモーダル変換器(multimodal transformer)ネットワークを採用する。評価のため、教育研究者によって細粒度の教育クラスラベルが付与されたYouTube動画を用いたデータセット「APPROVE」を構築した。APPROVEは193時間にわたり専門家がアノテートした動画を含み、合計19の教育クラスをカバーしている。提案手法は、APPROVEおよびYoutube-8M、COINなどの他のベンチマークにおいて、強力なベースラインを上回る性能を示した。データセットは以下のURLから公開されている:https://nusci.csl.sri.com/project/APPROVE。