HyperAIHyperAI

Command Palette

Search for a command to run...

Adversarial Self-Attention für die Sprachverstehens

Hongqiu Wu Ruixue Ding Hai Zhao Pengjun Xie Fei Huang Min Zhang

Zusammenfassung

Tiefgehende neuronale Modelle (z. B. Transformer) lernen naturgemäß spurious Merkmale, die einen „Kurzschluss“ zwischen den Labels und den Eingaben schaffen und somit die Generalisierbarkeit und Robustheit beeinträchtigen. In dieser Arbeit wird die Selbst-Attention-Mechanismus für Transformer-basierte vortrainierte Sprachmodelle (z. B. BERT) auf eine robusteren Variante erweitert. Wir stellen den adversarialen Selbst-Attention-Mechanismus (ASA) vor, der die Aufmerksamkeiten adversarisch beeinflusst, um die Abhängigkeit des Modells von bestimmten Merkmalen (z. B. spezifischen Schlüsselwörtern) effektiv zu unterdrücken und gleichzeitig die Exploration weiterer semantischer Zusammenhänge zu fördern. Wir führen eine umfassende Evaluation über eine breite Palette von Aufgaben sowohl im Vortrainings- als auch im Fine-Tuning-Stadium durch. Bei der Vortrainierung erzielt ASA im Vergleich zur naiven Trainingsstrategie bei längeren Trainingsphasen beachtliche Leistungssteigerungen. Im Fine-Tuning übertrifft das ASA-empfundene Modell die herkömmlichen Modelle deutlich hinsichtlich sowohl Generalisierbarkeit als auch Robustheit.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp