vor 2 Monaten

Adaptiv spärliche Transformer

Gonçalo M. Correia; Vlad Niculae; André F.T. Martins

Abstract

Aufmerksamkeitsmechanismen sind in der NLP weit verbreitet. Neuere Architekturen, insbesondere der Transformer, lernen durch mehrschichtige, mehrköpfige Aufmerksamkeit leistungsstarke, kontextsensitive Wortrepräsentationen. Die verschiedenen Köpfe erlernen unterschiedliche Arten von Wortbeziehungen. Allerdings sind bei der standardmäßigen Softmax-Aufmerksamkeit alle Aufmerksamkeitsköpfe dicht und weisen allen Kontextwörtern ein Gewicht ungleich null zu. In dieser Arbeit führen wir den adaptiv dünnen Transformer ein, bei dem die Aufmerksamkeitsköpfe flexibel und kontextabhängig dünn sind. Diese Dünnheit wird erreicht, indem Softmax durch $α$-Entmax ersetzt wird: eine differenzierbare Verallgemeinerung von Softmax, die es niedrig bewerteten Wörtern ermöglicht, genau ein Gewicht von null zu erhalten. Darüber hinaus leiten wir eine Methode ab, um den $α$-Parameter automatisch zu lernen – welcher die Form und Dünnheit des $α$-Entmax steuert – sodass die Aufmerksamkeitsköpfe zwischen fokussiertem oder ausgebreiteten Verhalten wählen können. Unser adaptiv dünner Transformer verbessert die Interpretierbarkeit und Vielfalt der Köpfe im Vergleich zu Softmax-Transformern auf maschinellen Übersetzungskorpora. Die Ergebnisse unserer quantitativen und qualitativen Analyse zeigen, dass Köpfe in verschiedenen Schichten unterschiedliche Dünnheitspräferenzen erlernen und tendenziell in ihren Aufmerksamkeitsverteilungen vielfältiger sind als Softmax-Transformers. Zudem hilft die Dünnheit in den Aufmerksamkeitsköpfen bei gleicher Genauigkeit dabei, verschiedene Kopf-Spezialisierungen aufzudecken.