HyperAIHyperAI

Command Palette

Search for a command to run...

Dice Loss für datenungleichgewichtete NLP-Aufgaben

Xiaoya Li Xiaofei Sun Yuxian Meng Junjun Liang Fei Wu Jiwei Li

Zusammenfassung

Viele Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP), wie beispielsweise Tagging und maschinelles Leseverständnis, leiden unter dem gravierenden Problem der Datenungleichgewichtigkeit: Negative Beispiele überwiegen deutlich die positiven Beispiele, und die enorme Menge an Hintergrundbeispielen (oder einfachen Negativbeispielen) dominiert während des Trainings. Die am häufigsten verwendete Verlustfunktion basierend auf der Kreuzentropie (Cross-Entropy, CE) ist letztlich eine auf Genauigkeit ausgerichtete Zielgröße, was zu einer Diskrepanz zwischen Training und Test führt: Während jedes Trainingsbeispiel während des Trainings gleichgewichtig zur Verlustfunktion beiträgt, legt die F1-Score-Metrik im Testzeitraum stärkeren Wert auf die positiven Beispiele. In diesem Artikel schlagen wir vor, die standardmäßige Kreuzentropie durch die Dice-Verlustfunktion zu ersetzen, um Datenungleichgewicht in NLP-Aufgaben besser zu bewältigen. Die Dice-Verlustfunktion basiert auf dem Sørensen-Dice-Koeffizienten oder dem Tversky-Index, wobei Falsch-Positiv- und Falsch-Negativ-Fehler eine ähnliche Bedeutung zugeschrieben wird, wodurch die Methode robuster gegenüber Datenungleichgewichten ist. Um zudem den dominierenden Einfluss einfacher Negativbeispiele im Training weiter zu verringern, schlagen wir vor, den Trainingsbeispielen dynamisch angepasste Gewichte zuzuordnen, um die Bedeutung einfacher Negativbeispiele zu verringern. Theoretische Analysen zeigen, dass diese Strategie die Lücke zwischen dem F1-Score im Evaluation und der Dice-Verlustfunktion im Training verkleinert. Mit dem vorgeschlagenen Trainingsziel erreichen wir eine signifikante Leistungssteigerung auf einer Vielzahl von datenungleichgewichtigen NLP-Aufgaben. Insbesondere erzielen wir state-of-the-art (SOTA)-Ergebnisse für die Part-of-Speech-Tagging-Aufgabe auf CTB5, CTB6 und UD1.4; SOTA-Ergebnisse für die Named-Entity-Recognition-Aufgabe auf CoNLL03, OntoNotes5.0, MSRA und OntoNotes4.0; sowie konkurrenzfähige Ergebnisse für die Aufgaben des maschinellen Leseverständnisses und der Paraphrasenidentifikation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Dice Loss für datenungleichgewichtete NLP-Aufgaben | Paper | HyperAI