ETC: Kodierung langer und strukturierter Eingaben in Transformers

Transformer-Modelle haben den Stand der Technik in vielen Aufgaben des Natural Language Processing (NLP) vorangetrieben. In diesem Artikel stellen wir eine neue Transformer-Architektur, die Extended Transformer Construction (ETC), vor, die zwei zentrale Herausforderungen herkömmlicher Transformer-Architekturen adressiert: die Skalierung der Eingabefolgenlänge und die Kodierung strukturierter Eingaben. Um die Aufmerksamkeit auf längere Eingaben zu skalieren, führen wir eine neuartige Global-Local-Aufmerksamkeitsmechanik zwischen globalen Tokens und regulären Eingabetokens ein. Zudem zeigen wir, dass die Kombination von Global-Local-Aufmerksamkeit mit relativen Positions-Codierungen und einem Contrastive Predictive Coding (CPC)-Vortrainierungsziel es der ETC ermöglicht, strukturierte Eingaben zu kodieren. Wir erzielen state-of-the-art-Ergebnisse auf vier natürlichen Sprachdatensätzen, die lange und/oder strukturierte Eingaben erfordern.