vor 2 Monaten
Kurze Textkategorisierung mit Transformatoren
Leonid Pugachev; Mikhail Burtsev

Abstract
Neue Methoden für die Aufgabe der Clusterverteilung kurzer Texte basieren häufig auf Wort-Vektordarstellungen als Transfer-Lernkomponente. In dieser Arbeit wird gezeigt, dass Satzvektordarstellungen von Transformers in Verbindung mit verschiedenen Clusterverfahren erfolgreich angewendet werden können, um die Aufgabe zu lösen. Darüber hinaus demonstrieren wir, dass der Algorithmus zur Verbesserung des Clustern durch iterative Klassifikation die anfängliche Clustergüte mit verschiedenen Klassifizierern weiter steigern kann, einschließlich solcher, die auf vorgebildeten Transformer-Sprachmodellen basieren (pre-trained Transformer language models).