Ensemble De Données De Référence De L'assistant Général D'ia GAIA
Date
URL de publication
GAIA, lancé conjointement par Meta, HuggingFace et AutoGPT en 2024, est la référence la plus complète pour les agents intelligents. Les résultats pertinents de l'article sontGAIA : une référence pour les assistants IA généraux".
GAIA se compose de plus de 450 questions complexes avec des réponses claires qui nécessitent différents niveaux d'outils et d'autonomie pour être résolues. Il est donc divisé en 3 niveaux, où le niveau 1 peut être conquis par un très bon LLM, tandis que le niveau 3 indique une grande amélioration de la capacité du modèle. Chaque niveau est divisé en un ensemble de développement entièrement public pour la validation et un ensemble de tests contenant des réponses privées et des métadonnées.
Le problème est contenu dans metadata.jsonl. Certaines questions sont accompagnées d'un fichier supplémentaire qui se trouve dans le même dossier et dont l'ID est donné dans le champ file_name. Plus de détails sont disponibles surpapierAnnoncé en.
Voici un exemple de problème délicat :
Lequel des fruits représentés dans le tableau de 2008 « Broderie d’Ouzbékistan » faisait partie du menu du petit-déjeuner du paquebot d’octobre 1949 qui a ensuite été utilisé comme accessoire flottant dans le film « Le Dernier Voyage » ? Veuillez donner ces fruits sous forme de liste délimitée par des virgules dans le sens des aiguilles d'une montre en fonction de leur disposition dans le tableau, en commençant à la position 12 heures. Utilisez la forme plurielle de chaque fruit.
On peut constater que ce problème comporte plusieurs difficultés :
- Répondez sous un format de contrainte.
- Capacités multimodales, nécessaires pour lire les fruits à partir d'images.
- Il y a plusieurs informations à collecter, dont certaines dépendent d'autres informations :
- Fruits en images
- L'identité du paquebot utilisé comme accessoire flottant dans Le Dernier Voyage
- Le menu du petit-déjeuner de l'Ocean Liner ci-dessus en octobre 1949
- Ce qui précède oblige le chemin de solution correct à utiliser plusieurs étapes chaînées.
La résolution de ce problème nécessite un niveau élevé de capacité de planification et une exécution stricte, qui sont exactement deux domaines dans lesquels le LLM a du mal à traiter.
Il s’agit donc d’un excellent ensemble de tests pour tester les systèmes d’agents intelligents. Dans les classements publics de GAIA, le score moyen de GPT-4-Turbo est inférieur à 7%. La meilleure soumission était une solution basée sur Autogen qui utilisait un système multi-agent complexe et exploitait les capacités d'appel d'outils d'OpenAI, atteignant 40%.