HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen der Positions-Kodierung für Transformer mit einem kontinuierlichen dynamischen Modell

Xuanqing Liu Hsiang-Fu Yu Inderjit Dhillon Cho-Jui Hsieh

Zusammenfassung

Wir stellen eine neue Methode zur Kodierung von Positionsinformation für nicht rekurrente Modelle, wie beispielsweise Transformer-Modelle, vor. Im Gegensatz zu RNNs und LSTMs, die durch die sequenzielle Eingabe der Token eine induktive Voreingenommenheit aufweisen, sind nicht rekurrente Modelle weniger empfindlich gegenüber Position. Der Hauptgrund hierfür liegt darin, dass die Positionsbeziehung zwischen den Eingabeeinheiten nicht inhärent kodiert ist, d. h., die Modelle sind permutationsinvariant. Dies begründet, warum alle bestehenden Modelle eine sinusförmige Kodierungs-/Einbettungsschicht am Eingang enthalten. Diese Lösung weist jedoch klare Einschränkungen auf: Die sinusförmige Kodierung ist nicht flexibel genug, da sie manuell entworfen ist und keine lernbaren Parameter enthält, während die Positionseingabe die maximale Länge der Eingabefolgen beschränkt. Es ist daher wünschenswert, eine neue Positions-Schicht zu entwerfen, die lernbare Parameter enthält und sich an verschiedene Datensätze und Architekturen anpassen kann. Gleichzeitig soll die Kodierung auch in der Lage sein, sich an variierende Eingabelängen zu extrapolieren. In unserem vorgeschlagenen Ansatz greifen wir auf den jüngsten Ansatz der Neuralen ODEs zurück, der als universelle kontinuierliche Variante eines ResNet betrachtet werden kann. Dieses Modell ist in der Lage, eine Vielzahl dynamischer Systeme zu modellieren. Wir modellieren die Entwicklung der kodierten Werte entlang des Positionsindex mittels eines solchen dynamischen Systems und überwinden damit die oben genannten Einschränkungen bestehender Methoden. Wir evaluieren unsere neuen Positions-Schichten an einer Vielzahl von Aufgaben im Bereich maschineller Übersetzung und Sprachverstehen. Die experimentellen Ergebnisse zeigen konsistente Verbesserungen gegenüber den Baselines.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen der Positions-Kodierung für Transformer mit einem kontinuierlichen dynamischen Modell | Paper | HyperAI