TagRec: Automatisierte Kategorisierung von Fragen mit hierarchischer Lernsteuerungstaxonomie

Online-Lernplattformen organisieren akademische Fragen basierend auf einer hierarchischen Lerntaxonomie (Fach-Kapitel-Thema). Die automatische Kategorisierung neuer Fragen mit der bestehenden Taxonomie hilft dabei, diese Fragen in verschiedene Klassen der hierarchischen Taxonomie zu ordnen, sodass sie nach Facetten wie Kapiteln durchsucht werden können. Diese Aufgabe kann als ein flaches Mehrklassen-Klassifikationsproblem formuliert werden. Allerdings ignorieren Methoden zur flachen Klassifikation in der Regel die semantische Verwandtschaft zwischen den Begriffen der hierarchischen Taxonomie und den Fragen. Einige traditionelle Methoden leiden auch an Problemen des Klassenungleichgewichts, da sie nur die Blattknoten berücksichtigen und die Hierarchie außer Acht lassen. Daher formulieren wir das Problem als eine auf Ähnlichkeit basierende Retrieval-Aufgabe, bei der wir die semantische Verwandtschaft zwischen der Taxonomie und den Fragen optimieren. Wir zeigen, dass unsere Methode es ermöglicht, unbekannte Labels zu verarbeiten und daher für die Taxonomiekategorisierung im realen Einsatz verwendet werden kann. In dieser Methode ergänzen wir die Frage um ihre entsprechende Antwort, um mehr semantische Informationen zu erfassen, und ordnen dann die kontextualisierte Einbettung des Frage-Antwort-Paares den entsprechenden Label-(Taxonomie)-Vektordarstellungen zu. Die Darstellungen werden durch Feinabstimmung eines transformersbasierten Modells mit einer Verlustfunktion ausgerichtet, die eine Kombination aus Kosinus-Ähnlichkeit und Hinge-Rang-Verlust ist. Die Verlustfunktion maximiert die Ähnlichkeit zwischen dem Frage-Antwort-Paar und den korrekten Label-Darstellungen und minimiert gleichzeitig die Ähnlichkeit zu unverwandten Labels. Schließlich führen wir Experimente mit zwei realweltlichen Datensätzen durch. Wir zeigen, dass das vorgeschlagene Lernverfahren in Bezug auf Recall@k um 6 % besser abschneidet als Darstellungen, die mithilfe von Mehrklassen-Klassifikationsmethoden oder anderen Stand-of-the-Art-Methoden gelernt wurden. Zudem demonstrieren wir die Leistungsfähigkeit der vorgeschlagenen Methode bei unbekannten aber verwandten Lerninhalten wie Lernzielen ohne erneutes Training des Netzwerks.