vor 9 Tagen

Verringerung des Verlusts sequenzieller Information durch Datenüberlappung und Prim-Batch-Größen

Noémien Kocher, Christian Scuito, Lorenzo Tarantino, Alexandros Lazaridis, Andreas Fischer, Claudiu Musat

Abstract

Bei sequenzbasierten Modellierungsaufgaben ist die Reihenfolge der Tokens von entscheidender Bedeutung, doch diese Information kann teilweise verloren gehen, da die Sequenz in diskrete Datenpunkte zerlegt wird. In diesem Paper untersuchen wir die Ungleichgewichtsituation zwischen der Art und Weise, wie bestimmte Token-Paare in Datenpunkte einbezogen werden, während andere nicht einbezogen werden. Wir bezeichnen dieses Phänomen als Token-Order-Imbalance (TOI) und verbinden den teilweisen Verlust von Sequenzinformation mit einer verminderten Gesamtleistung des Systems, sowohl in textbasierten als auch in sprachverarbeitenden Aufgaben. Anschließend stellen wir ein Verfahren vor, das die vollständige Token-Reihenfolgeninformation nutzt – Alleviated TOI – durch iteratives Überlappen der Tokenzusammensetzung der Datenpunkte. Für rekurrente Netzwerke verwenden wir Primzahlen als Batch-Größe, um Redundanzen zu vermeiden, wenn aus überlappenden Datenpunkten Batches erstellt werden. Die vorgeschlagene Methode erreicht state-of-the-art-Leistungen sowohl in textbasierten als auch in sprachbezogenen Aufgaben.