Klassenprototypen-basiertes kontrastives Lernen zur Klassifizierung mehrfach beschrifteter und fein granularer Bildungs-Videos

Die zunehmende Nutzung von Online-Medien durch Kinder im frühen Kindesalter erfordert datengestützte Werkzeuge, die Bildungspersonal dabei unterstützen, geeignete Lerninhalte für junge Lernende zu filtern. In diesem Beitrag wird ein Ansatz zur Erkennung von Bildungsinhalten in Online-Videos vorgestellt. Wir konzentrieren uns auf zwei weit verbreitete Klassen von Bildungsinhalten: Lesen (Literacy) und Mathematik (Math). Für jede dieser Klassen wählen wir prominente Subklassen basierend auf den Common Core Standards aus. Beispielsweise umfassen die Literacy-Subklassen „Buchstabennamen“ (letter names) und „Buchstabenlaute“ (letter sounds), während die Mathematik-Subklassen „Zählen“ (counting) und „Sortieren“ (sorting) umfassen. Wir formulieren das Problem als fein granulare Multilabel-Klassifikation, da Videos mehrere Arten von Bildungsinhalten enthalten können und die Inhaltsklassen visuell ähnlich erscheinen können (z. B. „Buchstabennamen“ vs. „Buchstabenlaute“). Wir stellen einen neuartigen Ansatz basierend auf Klassenprototypen vor, der supervisiertes kontrastives Lernen nutzt und fein granulare, mehrfach beschriftete Beispiele effektiv verarbeiten kann. Für jede Kategorie lernen wir einen Klassenprototypen und verwenden eine Verlustfunktion, um die Distanzen zwischen dem Klassenprototypen und den zugehörigen Beispielen zu minimieren, während die Distanzen zu Beispielen anderer Klassen maximiert werden. Da die Korrelation zwischen visuellen und auditiven Signalen entscheidend für die effektive Verständnisbildung ist, integrieren wir ein multimodales Transformer-Netzwerk, um die Interaktion zwischen visuellen und auditiven Merkmalen in Videos zu erfassen, während die Embeddings für die Videos gelernt werden. Zur Evaluierung präsentieren wir eine neue Datensammlung namens APPROVE, die aus auf YouTube verfügbaren Bildungsvideos besteht und von Bildungsforschern mit fein granularen Bildungsklassen annotiert wurde. APPROVE umfasst 193 Stunden experten-annotierter Videos mit insgesamt 19 Klassen. Der vorgeschlagene Ansatz erreicht eine bessere Leistung als starke Baseline-Methoden auf APPROVE sowie auf anderen Benchmark-Datensätzen wie Youtube-8M und COIN. Die Datensammlung ist unter https://nusci.csl.sri.com/project/APPROVE verfügbar.