HyperAIHyperAI
vor 17 Tagen

RetroMAE: Vortrainierte abfragorientierte Sprachmodelle über Masked Auto-Encoder

Shitao Xiao, Zheng Liu, Yingxia Shao, Zhao Cao
RetroMAE: Vortrainierte abfragorientierte Sprachmodelle über Masked Auto-Encoder
Abstract

Trotz der Fortschritte der Vortrainierung bei zahlreichen wichtigen Aufgaben im Bereich der natürlichen Sprachverarbeitung (NLP) bleibt die Entwicklung effektiver Vortrainierungsstrategien für die dichte Recherche weiterhin eine offene Herausforderung. In diesem Artikel stellen wir RetroMAE vor, ein neuartiges, auf die Recherche ausgerichtetes Vortrainierungsparadigma, das auf dem Masked Auto-Encoder (MAE) basiert. RetroMAE zeichnet sich durch drei entscheidende Entwürfe aus: 1) Ein neuartiger MAE-Ablauf, bei dem der Eingabesatz für Encoder und Decoder mit unterschiedlichen Masken verunreinigt wird. Die Satzrepräsentation wird aus dem maskierten Eingabesatz des Encoders generiert; anschließend wird der ursprüngliche Satz basierend auf der Satzrepräsentation und dem maskierten Eingabesatz des Decoders mittels maskiertem Sprachmodellierung rekonstruiert. 2) Eine asymmetrische Modellstruktur, wobei ein vollskaliger, BERT-ähnlicher Transformer als Encoder und ein einlagiger Transformer als Decoder verwendet wird. 3) Asymmetrische Maskierungsquoten, wobei der Encoder eine moderate Maskierungsrate von 15 bis 30 % und der Decoder eine aggressive Rate von 50 bis 70 % aufweist. Unser Framework ist einfach umzusetzen und zeigt empirisch konkurrenzfähige Ergebnisse: Die vortrainierten Modelle verbessern die SOTA-Leistungen erheblich auf einer Vielzahl von dichten Recherche-Benchmarks, wie BEIR und MS MARCO. Der Quellcode und die vortrainierten Modelle sind öffentlich unter https://github.com/staoxiao/RetroMAE verfügbar, um weitere interessante Forschungsarbeiten anzuregen.