Erst Trainieren zum Generieren, dann Generieren zum Trainieren: UnitedSynT5 für Few-Shot NLI

Aufgaben zur natürlichen Sprachinferenz (Natural Language Inference, NLI) erfordern die Identifizierung der Beziehung zwischen Satzpaaren, typischerweise klassifiziert als Implikation (entailment), Widerspruch (contradiction) oder Neutralität (neutrality). Obwohl der derzeitige Stand der Technik (State-of-the-Art, SOTA), das Modell Entailment Few-Shot Learning (EFL), eine Genauigkeit von 93,1 % auf dem Stanford Natural Language Inference (SNLI)-Datensatz erreicht, sind weitere Fortschritte durch die Beschränkungen dieses Datensatzes eingeschränkt. Um diesem Problem zu begegnen, schlagen wir einen neuartigen Ansatz vor, der auf der Synthese von künstlichem Datenmaterial zur Erhöhung der Vielfalt und Komplexität des Datensatzes basiert. Wir präsentieren UnitedSynT5, eine erweiterte Variante von EFL, die einen T5-basierten Generator nutzt, um zusätzliche Paare aus Voraussetzungen und Hypothesen zu synthetisieren. Diese synthetischen Beispiele werden sorgfältig bereinigt und in die Trainingsdaten integriert. Die erweiterten Beispiele werden innerhalb des EFL-Frameworks verarbeitet, wobei die Labels direkt in die Hypothesen eingebettet werden, um Konsistenz zu gewährleisten. Wir trainieren ein GTR-T5-XL-Modell auf diesem erweiterten Datensatz und erreichen damit einen neuen Benchmark: 94,7 % Genauigkeit auf dem SNLI-Datensatz, 94,0 % auf dem E-SNLI-Datensatz und 92,6 % auf dem MultiNLI-Datensatz – alle Werte übertreffen die vorherigen SOTA-Modelle. Diese Forschung zeigt das Potenzial der synthetischen Datenvervollkommnung zur Verbesserung von NLI-Modellen und eröffnet einen Weg für weitere Fortschritte in Aufgaben des natürlichen Sprachverstehens.