HyperAIHyperAI
vor 17 Tagen

RetroMAE v2: Duplex Masked Auto-Encoder für die Vortrainierung retrieval-orientierter Sprachmodelle

Shitao Xiao, Zheng Liu
RetroMAE v2: Duplex Masked Auto-Encoder für die Vortrainierung retrieval-orientierter Sprachmodelle
Abstract

Um die Unterstützung von Retrieval-Anwendungen wie Web-Suche und Fragebeantwortung weiter zu verbessern, wird zunehmend Aufwand in die Entwicklung retrieval-orientierter Sprachmodelle gesteckt. Die meisten bestehenden Ansätze konzentrieren sich darauf, die semantische Repräsentationsfähigkeit der kontextuellen Embeddings des [CLS]-Tokens zu verfeinern. Kürzlich gezeigte Studien deuten jedoch darauf hin, dass auch gewöhnliche Tokens außerhalb von [CLS] zusätzliche Informationen liefern können, die zu einer besseren Repräsentation beitragen. Daher ist es notwendig, die derzeitigen Methoden zu erweitern, sodass alle kontextuellen Embeddings gemeinsam für Retrieval-Aufgaben vortrainiert werden können.Aus dieser Motivation heraus stellen wir eine neue Vortrainingsmethode vor: den Duplex-Masked-Autoencoder, kurz DupMAE. Ziel dieses Ansatzes ist es, die semantische Repräsentationskapazität sowohl für die kontextuellen Embeddings von [CLS] als auch für gewöhnliche Tokens zu verbessern. DupMAE führt zwei Dekodieraufgaben ein: Erstens die Rekonstruktion des ursprünglichen Eingabesatzes basierend auf dem [CLS]-Embedding, und zweitens die Minimierung des Bag-of-Words-Verlustes (BoW) bezogen auf den Eingabesatz, basierend auf den Embeddings aller gewöhnlichen Tokens. Beide Dekodierungsverluste werden addiert, um ein einheitliches Kodiermodell zu trainieren. Die Embeddings von [CLS] und gewöhnlichen Tokens werden nach dimensionsreduzierender Aggregation zusammengeführt, um eine einheitliche semantische Repräsentation der Eingabe zu bilden. DupMAE ist einfach, aber empirisch konkurrenzfähig: Bei geringem Dekodierungsaufwand trägt das Modell erheblich zur Verbesserung der Repräsentationsfähigkeit und Übertragbarkeit bei, wobei signifikante Leistungssteigerungen auf den Benchmarks MS MARCO und BEIR erzielt werden.