HyperAIHyperAI

Command Palette

Search for a command to run...

RetroMAE v2: Duplex Masked Auto-Encoder für die Vortrainierung retrieval-orientierter Sprachmodelle

Shitao Xiao Zheng Liu

Zusammenfassung

Um die Unterstützung von Retrieval-Anwendungen wie Web-Suche und Fragebeantwortung weiter zu verbessern, wird zunehmend Aufwand in die Entwicklung retrieval-orientierter Sprachmodelle gesteckt. Die meisten bestehenden Ansätze konzentrieren sich darauf, die semantische Repräsentationsfähigkeit der kontextuellen Embeddings des [CLS]-Tokens zu verfeinern. Kürzlich gezeigte Studien deuten jedoch darauf hin, dass auch gewöhnliche Tokens außerhalb von [CLS] zusätzliche Informationen liefern können, die zu einer besseren Repräsentation beitragen. Daher ist es notwendig, die derzeitigen Methoden zu erweitern, sodass alle kontextuellen Embeddings gemeinsam für Retrieval-Aufgaben vortrainiert werden können.Aus dieser Motivation heraus stellen wir eine neue Vortrainingsmethode vor: den Duplex-Masked-Autoencoder, kurz DupMAE. Ziel dieses Ansatzes ist es, die semantische Repräsentationskapazität sowohl für die kontextuellen Embeddings von [CLS] als auch für gewöhnliche Tokens zu verbessern. DupMAE führt zwei Dekodieraufgaben ein: Erstens die Rekonstruktion des ursprünglichen Eingabesatzes basierend auf dem [CLS]-Embedding, und zweitens die Minimierung des Bag-of-Words-Verlustes (BoW) bezogen auf den Eingabesatz, basierend auf den Embeddings aller gewöhnlichen Tokens. Beide Dekodierungsverluste werden addiert, um ein einheitliches Kodiermodell zu trainieren. Die Embeddings von [CLS] und gewöhnlichen Tokens werden nach dimensionsreduzierender Aggregation zusammengeführt, um eine einheitliche semantische Repräsentation der Eingabe zu bilden. DupMAE ist einfach, aber empirisch konkurrenzfähig: Bei geringem Dekodierungsaufwand trägt das Modell erheblich zur Verbesserung der Repräsentationsfähigkeit und Übertragbarkeit bei, wobei signifikante Leistungssteigerungen auf den Benchmarks MS MARCO und BEIR erzielt werden.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp