Ask Me Anything: Eine einfache Strategie zur Ansteuerung von Sprachmodellen

Große Sprachmodelle (LLMs) übertragen sich ausgezeichnet auf neue Aufgaben, ohne zusätzliche Trainingsdaten, indem lediglich ein natürlichsprachlicher Prompt bereitgestellt wird, der demonstriert, wie die Aufgabe gelöst werden soll. Die Prompting-Technik ist jedoch eine empfindliche Prozedur: bereits geringfügige Änderungen am Prompt können zu erheblichen Schwankungen in den Modellvorhersagen führen. Daher wird erheblicher Aufwand in die Entwicklung eines sorgfältig abgestimmten „perfekten“ Prompts für eine Aufgabe investiert. Um den hohen Aufwand bei der Prompt-Design zu reduzieren, untersuchen wir stattdessen, ob die Erzeugung mehrerer wirksamer, jedoch unvollkommener Prompts und deren Aggregation zu einer hochwertigen Prompting-Strategie führen kann. Unsere Beobachtungen motivieren unsere vorgeschlagene Methode ASK ME ANYTHING (AMA). Zunächst gewinnen wir ein Verständnis der effektiven Prompt-Formate und stellen fest, dass Frage-Antwort-Prompts (QA), die eine offene Generierung anregen (z. B. „Wer ging in den Park?“), tendenziell besser abschneiden als solche, die die Modellausgaben einschränken (z. B. „John ging in den Park. Gib „Wahr“ oder „Falsch“ aus.“). Unser Ansatz nutzt das LLM selbst rekursiv, um Aufgabeninputs in das effektive QA-Format zu transformieren. Die gesammelten Prompts werden dann verwendet, um mehrere verrauschte Votes für die wahre Etikettierung des Inputs zu erhalten. Wir stellen fest, dass die Prompts sehr unterschiedliche Genauigkeiten aufweisen und komplexe Abhängigkeiten aufweisen, weshalb wir weak supervision – ein Verfahren zur Kombination verrauschter Vorhersagen – vorschlagen, um die endgültigen Vorhersagen für die Eingaben zu erzeugen. Wir evaluieren AMA an mehreren Open-Source-Modellfamilien (z. B. EleutherAI, BLOOM, OPT und T0) und unterschiedlichen Modellgrößen (125M bis 175B Parameter) und zeigen eine durchschnittliche Leistungssteigerung von 10,2 % gegenüber der Few-Shot-Benchmark. Diese einfache Strategie ermöglicht es dem Open-Source-Modell GPT-J-6B, die Leistung von Few-Shot-GPT3-175B auf 15 von 20 gängigen Benchmarks zu erreichen und sogar zu übertreffen. Im Durchschnitt über diese Aufgaben übertrifft das GPT-J-6B-Modell die Few-Shot-Variante von GPT3-175B. Wir stellen unseren Code hier zur Verfügung: https://github.com/HazyResearch/ama_prompting