HyperAIHyperAI
vor 9 Tagen

ETC: Kodierung langer und strukturierter Eingaben in Transformers

Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang
ETC: Kodierung langer und strukturierter Eingaben in Transformers
Abstract

Transformer-Modelle haben den Stand der Technik in vielen Aufgaben des Natural Language Processing (NLP) vorangetrieben. In diesem Artikel stellen wir eine neue Transformer-Architektur, die Extended Transformer Construction (ETC), vor, die zwei zentrale Herausforderungen herkömmlicher Transformer-Architekturen adressiert: die Skalierung der Eingabefolgenlänge und die Kodierung strukturierter Eingaben. Um die Aufmerksamkeit auf längere Eingaben zu skalieren, führen wir eine neuartige Global-Local-Aufmerksamkeitsmechanik zwischen globalen Tokens und regulären Eingabetokens ein. Zudem zeigen wir, dass die Kombination von Global-Local-Aufmerksamkeit mit relativen Positions-Codierungen und einem Contrastive Predictive Coding (CPC)-Vortrainierungsziel es der ETC ermöglicht, strukturierte Eingaben zu kodieren. Wir erzielen state-of-the-art-Ergebnisse auf vier natürlichen Sprachdatensätzen, die lange und/oder strukturierte Eingaben erfordern.

ETC: Kodierung langer und strukturierter Eingaben in Transformers | Neueste Forschungsarbeiten | HyperAI