HyperAIHyperAI

Command Palette

Search for a command to run...

Breaking Free Transformer-Modelle: Aufgabe-spezifische Kontext-Zuordnung verspricht verbesserte Verallgemeinerbarkeit ohne Feinabstimmung vortrainierter LLMs

Stepan Tytarenko Mohammad Ruhul Amin

Zusammenfassung

Die Feinabstimmung großer vortrainierter Sprachmodelle (LLMs) an spezifischen Datensätzen ist eine gängige Strategie in Klassifizierungsaufgaben des Natural Language Processing (NLP). Allerdings führt dieser Ansatz häufig zu einem Verlust der Generalisierbarkeit des Modells. In diesem Paper präsentieren wir einen Rahmen, der die Generalisierbarkeit bewahrt und gleichzeitig die Leistung auf der Downstream-Aufgabe durch die Nutzung von aufgabe-spezifischer Kontextzuschreibung verbessert. Wir zeigen, dass eine lineare Transformation der Textrepräsentation beliebiger Transformer-Modelle mittels eines aufgabe-spezifischen Konzeptoperators eine Projektion in den latente Konzeptraum ergibt, die in diesem Paper als Kontextzuschreibung bezeichnet wird. Der spezifische Konzeptoperator wird während des überwachten Lernprozesses über neuartige Verlustfunktionen optimiert. Der vorgeschlagene Rahmen demonstriert, dass die Kontextzuschreibung der Textrepräsentation für jede Aufgabenzielsetzung die Kapazität der Diskriminantenfunktion erhöht und somit eine bessere Leistung bei der Klassifizierung ermöglicht. Experimentelle Ergebnisse an drei Datensätzen – HateXplain, IMDB-Reviews und Social Media Attributions – zeigen, dass das vorgeschlagene Modell eine überlegene Genauigkeit und Generalisierbarkeit erreicht. Insbesondere erreicht das nicht-feinabgestimmte BERT-Modell auf dem HateXplain-Datensatz eine Verbesserung der Genauigkeit um 8 % und der F1-Score steigt um 10 %. Für den IMDB-Datensatz übertrifft das feinabgestimmte State-of-the-Art-Modell XLNet bei sowohl Genauigkeit als auch F1-Score um jeweils 1 %. Zudem zeigt sich in einem Out-of-Domain-Kreuz-Datensatz-Test, dass DistilBERT, das auf dem IMDB-Datensatz feinabgestimmt wurde und in Kombination mit dem vorgeschlagenen Modell eingesetzt wird, den F1-Score auf dem HateXplain-Datensatz um 7 % steigert. Für den Social Media Attributions-Datensatz aus YouTube-Kommentaren beobachten wir eine Erhöhung des F1-Metriks um 5,2 %. Der vorgeschlagene Rahmen wurde mit PyTorch implementiert und ist auf GitHub als Open-Source verfügbare.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp