HyperAI

GAIA General AI Assistant Benchmark-Datensatz

Datum

vor 10 Monaten

Organisation

Umarmendes Gesicht
Meta

Veröffentlichungs-URL

huggingface.co

Download-Hilfe

GAIA, das 2024 gemeinsam von Meta, HuggingFace und AutoGPT eingeführt wurde, ist der umfassendste Benchmark für intelligente Agenten. Die relevanten Papierergebnisse sindGAIA: ein Maßstab für allgemeine KI-Assistenten".

GAIA besteht aus mehr als 450 komplexen Fragen mit klaren Antworten, deren Lösung unterschiedliche Ebenen an Werkzeugen und Autonomie erfordert. Daher wird es in 3 Level unterteilt, wobei Level 1 durch einen sehr guten LLM bewältigt werden kann, während Level 3 eine große Verbesserung der Modellfähigkeit anzeigt. Jede Ebene ist in einen vollständig öffentlichen Entwicklungssatz zur Validierung und einen Testsatz mit privaten Antworten und Metadaten aufgeteilt.

Das Problem liegt in metadata.jsonl. Zu manchen Fragen gehört eine zusätzliche Datei, die sich im selben Ordner befindet und deren ID im Feld file_name angegeben ist. Weitere Details finden Sie unterPapierAngekündigt in.

Hier ist ein Beispiel für ein kniffliges Problem:

Welche der im Gemälde „Stickerei aus Usbekistan“ von 2008 abgebildeten Früchte gehörten zum Frühstücksmenü auf dem Ozeandampfer vom Oktober 1949, der später als schwimmende Requisite im Film „Die letzte Reise“ verwendet wurde? Bitte geben Sie diese Früchte als Komma-getrennte Liste im Uhrzeigersinn entsprechend ihrer Anordnung im Gemälde an, beginnend bei der 12-Uhr-Position. Verwenden Sie die Pluralform jeder Frucht.

Es ist ersichtlich, dass dieses Problem mehrere Schwierigkeiten mit sich bringt:

  • Antworten Sie in einem Constraint-Format.
  • Multimodale Fähigkeiten, erforderlich, um Früchte aus Bildern zu lesen.
  • Es müssen zahlreiche Informationen erfasst werden, von denen einige von anderen Informationen abhängen:
    • Früchte in Bildern
    • Die Identität des Ozeandampfers, der als schwimmende Requisite in „Die letzte Reise“ verwendet wurde
    • Das obige Frühstücksmenü des Ozeandampfers im Oktober 1949
  • Das Obige zwingt den richtigen Lösungspfad dazu, mehrere verkettete Schritte zu verwenden.

Die Lösung dieses Problems erfordert ein hohes Maß an Planungsfähigkeit und strikter Ausführung, und genau das sind zwei Bereiche, in denen LLM Schwierigkeiten hat.

Daher ist es ein hervorragendes Testset zum Testen intelligenter Agentensysteme. In den öffentlichen Rankings von GAIA liegt die durchschnittliche Punktzahl von GPT-4-Turbo unter 7%. Der beste Beitrag war eine auf Autogen basierende Lösung, die ein komplexes Multiagentensystem nutzte und die Tool-Calling-Funktionen von OpenAI nutzte und 40% erreichte.