HyperAIHyperAI
il y a 18 jours

Apprentissage contrastif basé sur les prototypes de classe pour la classification des vidéos éducatives multi-étiquettes et à fine granularité

{Mubarak Shah, Todd Grindal, Ajay Divakaran, Madeline Cincebeaux, Sarah Gerard, Sujeong Kim, Claire Christensen, Anirban Roy, Rohit Gupta}
Apprentissage contrastif basé sur les prototypes de classe pour la classification des vidéos éducatives multi-étiquettes et à fine granularité
Résumé

La croissance récente de la consommation de médias en ligne par les enfants en bas âge rend nécessaire le développement d’outils fondés sur les données permettant aux éducateurs de filtrer le contenu éducatif adapté aux jeunes apprenants. Ce papier présente une approche pour détecter le contenu éducatif dans les vidéos en ligne. Nous nous concentrons sur deux classes de contenu éducatif largement utilisées : la littératie et les mathématiques. Pour chacune de ces classes, nous définissons des codes (sous-classes) significatifs en nous appuyant sur les Standards communs (Common Core Standards). Par exemple, les codes liés à la littératie incluent « noms des lettres », « sons des lettres », tandis que les codes mathématiques comprennent « comptage », « tri ». Nous formulons ce problème comme une classification multilabel fine-grained, car une même vidéo peut contenir plusieurs types de contenu éducatif, et les classes peuvent présenter des similitudes visuelles (par exemple, « noms des lettres » vs « sons des lettres »). Nous proposons une nouvelle méthode fondée sur des prototypes de classes, basée sur un apprentissage contrastif supervisé, capable de traiter des échantillons fins associés à plusieurs étiquettes. Pour chaque classe, nous apprenons un prototype de classe, et une fonction de perte est utilisée pour minimiser la distance entre ce prototype et les échantillons de la même classe, tout en maximisant la distance entre le prototype et les échantillons d’autres classes. Étant donné que l’alignement entre les indices visuels et auditifs est crucial pour une compréhension efficace, nous adoptons un réseau transformer multimodal afin de capturer les interactions entre ces deux modalités dans les vidéos tout en apprenant des représentations (embeddings) des vidéos. Pour l’évaluation, nous présentons un nouveau jeu de données, APPROVE, constitué de vidéos éducatives provenant de YouTube, étiquetées par des chercheurs en éducation selon des classes éducatives fines. APPROVE comprend 193 heures de vidéos annotées par des experts, réparties en 19 classes. L’approche proposée surpasse les modèles de référence forts sur APPROVE ainsi que sur d’autres benchmarks comme Youtube-8M et COIN. Le jeu de données est disponible à l’adresse suivante : https://nusci.csl.sri.com/project/APPROVE.

Apprentissage contrastif basé sur les prototypes de classe pour la classification des vidéos éducatives multi-étiquettes et à fine granularité | Articles de recherche récents | HyperAI