HyperAIHyperAI
vor 15 Tagen

Adversarial Self-Attention für die Sprachverstehens

Hongqiu Wu, Ruixue Ding, Hai Zhao, Pengjun Xie, Fei Huang, Min Zhang
Adversarial Self-Attention für die Sprachverstehens
Abstract

Tiefgehende neuronale Modelle (z. B. Transformer) lernen naturgemäß spurious Merkmale, die einen „Kurzschluss“ zwischen den Labels und den Eingaben schaffen und somit die Generalisierbarkeit und Robustheit beeinträchtigen. In dieser Arbeit wird die Selbst-Attention-Mechanismus für Transformer-basierte vortrainierte Sprachmodelle (z. B. BERT) auf eine robusteren Variante erweitert. Wir stellen den adversarialen Selbst-Attention-Mechanismus (ASA) vor, der die Aufmerksamkeiten adversarisch beeinflusst, um die Abhängigkeit des Modells von bestimmten Merkmalen (z. B. spezifischen Schlüsselwörtern) effektiv zu unterdrücken und gleichzeitig die Exploration weiterer semantischer Zusammenhänge zu fördern. Wir führen eine umfassende Evaluation über eine breite Palette von Aufgaben sowohl im Vortrainings- als auch im Fine-Tuning-Stadium durch. Bei der Vortrainierung erzielt ASA im Vergleich zur naiven Trainingsstrategie bei längeren Trainingsphasen beachtliche Leistungssteigerungen. Im Fine-Tuning übertrifft das ASA-empfundene Modell die herkömmlichen Modelle deutlich hinsichtlich sowohl Generalisierbarkeit als auch Robustheit.

Adversarial Self-Attention für die Sprachverstehens | Neueste Forschungsarbeiten | HyperAI