HyperAIHyperAI

Command Palette

Search for a command to run...

Adaptiv spärliche Transformer

Gonçalo M. Correia Vlad Niculae André F.T. Martins

Zusammenfassung

Aufmerksamkeitsmechanismen sind in der NLP weit verbreitet. Neuere Architekturen, insbesondere der Transformer, lernen durch mehrschichtige, mehrköpfige Aufmerksamkeit leistungsstarke, kontextsensitive Wortrepräsentationen. Die verschiedenen Köpfe erlernen unterschiedliche Arten von Wortbeziehungen. Allerdings sind bei der standardmäßigen Softmax-Aufmerksamkeit alle Aufmerksamkeitsköpfe dicht und weisen allen Kontextwörtern ein Gewicht ungleich null zu. In dieser Arbeit führen wir den adaptiv dünnen Transformer ein, bei dem die Aufmerksamkeitsköpfe flexibel und kontextabhängig dünn sind. Diese Dünnheit wird erreicht, indem Softmax durch ααα-Entmax ersetzt wird: eine differenzierbare Verallgemeinerung von Softmax, die es niedrig bewerteten Wörtern ermöglicht, genau ein Gewicht von null zu erhalten. Darüber hinaus leiten wir eine Methode ab, um den ααα-Parameter automatisch zu lernen – welcher die Form und Dünnheit des ααα-Entmax steuert – sodass die Aufmerksamkeitsköpfe zwischen fokussiertem oder ausgebreiteten Verhalten wählen können. Unser adaptiv dünner Transformer verbessert die Interpretierbarkeit und Vielfalt der Köpfe im Vergleich zu Softmax-Transformern auf maschinellen Übersetzungskorpora. Die Ergebnisse unserer quantitativen und qualitativen Analyse zeigen, dass Köpfe in verschiedenen Schichten unterschiedliche Dünnheitspräferenzen erlernen und tendenziell in ihren Aufmerksamkeitsverteilungen vielfältiger sind als Softmax-Transformers. Zudem hilft die Dünnheit in den Aufmerksamkeitsköpfen bei gleicher Genauigkeit dabei, verschiedene Kopf-Spezialisierungen aufzudecken.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Adaptiv spärliche Transformer | Paper | HyperAI