HyperAIHyperAI
vor 15 Tagen

Messung und Verengung der Kompositionalfähigkeit-Lücke in Sprachmodellen

Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, Mike Lewis
Messung und Verengung der Kompositionalfähigkeit-Lücke in Sprachmodellen
Abstract

Wir untersuchen die Fähigkeit von Sprachmodellen, zusammengesetzte Schlussfolgerungsaufgaben zu lösen, bei denen die Gesamtlösung davon abhängt, dass die Antworten auf Teilprobleme korrekt zusammengesetzt werden. Wir messen, wie häufig Modelle alle Teilprobleme korrekt beantworten, aber dennoch die Gesamtlösung nicht generieren können – ein Maß, das wir als „Zusammensetzungs-Lücke“ (compositionality gap) bezeichnen. Diese Lücke evaluieren wir anhand von mehrschrittigen Fragen, deren Antworten mehrere Fakten erfordern, die während der Vortrainingsphase unwahrscheinlich gemeinsam beobachtet wurden. Bei der GPT-3-Modellfamilie zeigen wir, dass mit zunehmender Modellgröße die Leistung bei einfachen (single-hop) Fragen schneller verbessert wird als die Leistung bei mehrschrittigen (multi-hop) Aufgaben. Folglich verringert sich die Zusammensetzungs-Lücke nicht. Dies überraschende Ergebnis deutet darauf hin, dass leistungsstärkere Modelle zwar mehr faktisches Wissen speichern und abrufen können, jedoch keine entsprechende Verbesserung ihrer Fähigkeit zur Durchführung dieser Art von zusammengesetzter Schlussfolgerung zeigen.Anschließend demonstrieren wir, wie erzeugende Prompting-Techniken (wie beispielsweise „Chain of Thought“) die Zusammensetzungs-Lücke verkleinern, indem sie eine explizite Schlussfolgerung ermöglichen. Wir stellen eine neue Methode, „Self-Ask“, vor, die Chain of Thought weiter verbessert. Bei unserer Methode fragt das Modell sich explizit selbst (und beantwortet) Folgefragen, bevor es auf die ursprüngliche Frage antwortet. Schließlich zeigen wir, dass die strukturierte Prompting-Strategie von Self-Ask es einfach ermöglicht, einen Suchmaschinen-Backend einzubinden, um die Folgefragen zu beantworten, was die Genauigkeit zusätzlich erhöht.