vor 11 Tagen

Breaking Free Transformer-Modelle: Aufgabe-spezifische Kontext-Zuordnung verspricht verbesserte Verallgemeinerbarkeit ohne Feinabstimmung vortrainierter LLMs

Stepan Tytarenko, Mohammad Ruhul Amin

Abstract

Die Feinabstimmung großer vortrainierter Sprachmodelle (LLMs) an spezifischen Datensätzen ist eine gängige Strategie in Klassifizierungsaufgaben des Natural Language Processing (NLP). Allerdings führt dieser Ansatz häufig zu einem Verlust der Generalisierbarkeit des Modells. In diesem Paper präsentieren wir einen Rahmen, der die Generalisierbarkeit bewahrt und gleichzeitig die Leistung auf der Downstream-Aufgabe durch die Nutzung von aufgabe-spezifischer Kontextzuschreibung verbessert. Wir zeigen, dass eine lineare Transformation der Textrepräsentation beliebiger Transformer-Modelle mittels eines aufgabe-spezifischen Konzeptoperators eine Projektion in den latente Konzeptraum ergibt, die in diesem Paper als Kontextzuschreibung bezeichnet wird. Der spezifische Konzeptoperator wird während des überwachten Lernprozesses über neuartige Verlustfunktionen optimiert. Der vorgeschlagene Rahmen demonstriert, dass die Kontextzuschreibung der Textrepräsentation für jede Aufgabenzielsetzung die Kapazität der Diskriminantenfunktion erhöht und somit eine bessere Leistung bei der Klassifizierung ermöglicht. Experimentelle Ergebnisse an drei Datensätzen – HateXplain, IMDB-Reviews und Social Media Attributions – zeigen, dass das vorgeschlagene Modell eine überlegene Genauigkeit und Generalisierbarkeit erreicht. Insbesondere erreicht das nicht-feinabgestimmte BERT-Modell auf dem HateXplain-Datensatz eine Verbesserung der Genauigkeit um 8 % und der F1-Score steigt um 10 %. Für den IMDB-Datensatz übertrifft das feinabgestimmte State-of-the-Art-Modell XLNet bei sowohl Genauigkeit als auch F1-Score um jeweils 1 %. Zudem zeigt sich in einem Out-of-Domain-Kreuz-Datensatz-Test, dass DistilBERT, das auf dem IMDB-Datensatz feinabgestimmt wurde und in Kombination mit dem vorgeschlagenen Modell eingesetzt wird, den F1-Score auf dem HateXplain-Datensatz um 7 % steigert. Für den Social Media Attributions-Datensatz aus YouTube-Kommentaren beobachten wir eine Erhöhung des F1-Metriks um 5,2 %. Der vorgeschlagene Rahmen wurde mit PyTorch implementiert und ist auf GitHub als Open-Source verfügbare.