HyperAI

Michelangelo

Michelangelo ist eine von DeepMind-Forschern im Jahr 2024 vorgeschlagene Methode zur Bewertung der Denkfähigkeit großer Sprachmodelle in langen Textkontexten. Es verwendet ein Framework namens Latent Structure Queries (LSQ), um synthetische Aufgaben zur Auswertung langer Texte zu erstellen, mit denen die Kontextlänge beliebig erweitert und unterschiedliche Komplexitätsstufen festgelegt werden können, ohne dass Kontext aus vorherigen Auswertungen verloren geht. Die relevanten Papierergebnisse sindMichelangelo: Lange Kontextauswertungen jenseits von Heuhaufen durch latente Strukturabfragen".

Michelangelo enthält 3 einfache Aufgaben: Latent List, Multi-Round Coreference Resolution (MRCR) und IDK. Diese Aufgaben dienen dazu, die Synthese- und Argumentationsfähigkeiten des Modells im Kontext langer Texte zu testen, Fähigkeiten, die über einfache Aufgaben zur Informationsbeschaffung hinausgehen. Beispielsweise erfordert die Aufgabe „Latent List“, dass das Modell die Eigenschaften einer latenten Datenstruktur in einer Reihe von Codeanweisungen verfolgt. Die MRCR-Aufgabe erfordert, dass das Modell die Reihenfolge in natürlichem Text versteht, ähnliche Textentwürfe unterscheidet und bestimmte Kontextfragmente in komplexen Abfragen reproduziert. Die IDK-Aufgabe testet, ob das Modell Informationen verstehen kann, die es in einem bestimmten Kontext nicht kennt.