Atlas: Few-Shot-Lernen mit retrivalfaugmentierten Sprachmodellen

Große Sprachmodelle haben beeindruckende Ergebnisse bei wenigen Beispielen (few-shot) in einer Vielzahl von Aufgaben gezeigt. Wenn jedoch spezifisches Wissen für solche Ergebnisse entscheidend ist, wie bei Aufgaben wie der Fragebeantwortung und der Faktprüfung, scheinen massive Parameteranzahlen erforderlich zu sein, um dieses Wissen zu speichern. Retrieval-augmentierte Modelle sind dafür bekannt, dass sie wissensintensive Aufgaben ohne die Notwendigkeit so vieler Parameter gut lösen können, aber es ist unklar, ob sie auch in few-shot-Szenarien funktionieren. In dieser Arbeit stellen wir Atlas vor, ein sorgfältig konzipiertes und vortrainiertes retrieval-augmentiertes Sprachmodell, das in der Lage ist, wissensintensive Aufgaben mit sehr wenigen Trainingsbeispielen zu erlernen. Wir führen Bewertungen auf einem breiten Spektrum von Aufgaben durch, darunter MMLU, KILT und NaturalQuestions, und untersuchen den Einfluss des Inhalts des Dokumentindex, wobei wir zeigen, dass dieser leicht aktualisiert werden kann. Bemerkenswerterweise erreicht Atlas eine Genauigkeit von über 42 % bei Natural Questions mit nur 64 Beispielen und übertreffen damit ein Modell mit 540 Milliarden Parametern um 3 %, obwohl es nur ein Fünfzigstel der Parameter hat.