vor 11 Tagen

Lernen der Positions-Kodierung für Transformer mit einem kontinuierlichen dynamischen Modell

Xuanqing Liu, Hsiang-Fu Yu, Inderjit Dhillon, Cho-Jui Hsieh

Abstract

Wir stellen eine neue Methode zur Kodierung von Positionsinformation für nicht rekurrente Modelle, wie beispielsweise Transformer-Modelle, vor. Im Gegensatz zu RNNs und LSTMs, die durch die sequenzielle Eingabe der Token eine induktive Voreingenommenheit aufweisen, sind nicht rekurrente Modelle weniger empfindlich gegenüber Position. Der Hauptgrund hierfür liegt darin, dass die Positionsbeziehung zwischen den Eingabeeinheiten nicht inhärent kodiert ist, d. h., die Modelle sind permutationsinvariant. Dies begründet, warum alle bestehenden Modelle eine sinusförmige Kodierungs-/Einbettungsschicht am Eingang enthalten. Diese Lösung weist jedoch klare Einschränkungen auf: Die sinusförmige Kodierung ist nicht flexibel genug, da sie manuell entworfen ist und keine lernbaren Parameter enthält, während die Positionseingabe die maximale Länge der Eingabefolgen beschränkt. Es ist daher wünschenswert, eine neue Positions-Schicht zu entwerfen, die lernbare Parameter enthält und sich an verschiedene Datensätze und Architekturen anpassen kann. Gleichzeitig soll die Kodierung auch in der Lage sein, sich an variierende Eingabelängen zu extrapolieren. In unserem vorgeschlagenen Ansatz greifen wir auf den jüngsten Ansatz der Neuralen ODEs zurück, der als universelle kontinuierliche Variante eines ResNet betrachtet werden kann. Dieses Modell ist in der Lage, eine Vielzahl dynamischer Systeme zu modellieren. Wir modellieren die Entwicklung der kodierten Werte entlang des Positionsindex mittels eines solchen dynamischen Systems und überwinden damit die oben genannten Einschränkungen bestehender Methoden. Wir evaluieren unsere neuen Positions-Schichten an einer Vielzahl von Aufgaben im Bereich maschineller Übersetzung und Sprachverstehen. Die experimentellen Ergebnisse zeigen konsistente Verbesserungen gegenüber den Baselines.