HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 19 jours

LEGO-Eval : Vers une évaluation fine pour la synthèse d'environnements incarnés 3D avec une augmentation d'outils

Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

LEGO-Eval : Vers une évaluation fine pour la synthèse d'environnements incarnés 3D avec une augmentation d'outils

Résumé

Malgré les progrès récents dans l’utilisation des grands modèles linguistiques (LLM) pour la génération automatique de scènes 3D, les scènes ainsi produites manquent souvent de dispositions spatiales réalistes et d’attributs d’objets observés dans les environnements du monde réel. Ce problème provient principalement d'instructions insuffisamment détaillées et trop grossières, ce qui rend essentiel l’avancement de la synthèse de scènes 3D guidée par des instructions plus précises et fines, reflétant fidèlement les environnements réels. En l’absence de telles scènes réalistes, l’entraînement d’agents incarnés dans des environnements irréalistes peut conduire ces derniers à apprendre des connaissances a priori très éloignées des lois physiques et sémantiques du monde réel, entraînant une dégradation de leur performance en production. Il est donc crucial de vérifier l’alignement entre les instructions fines et la scène générée afin d’assurer un apprentissage efficace. Toutefois, les méthodes d’évaluation actuelles, telles que CLIPScore ou les modèles vision-langage (VLM), échouent fréquemment à évaluer de manière fiable cet alignement. Cette limitation provient principalement d’une compréhension superficielle des scènes 3D, qui conduit souvent à une mauvaise intégration des composants de la scène. Pour remédier à ce défaut, nous introduisons LEGO-Eval, un cadre d’évaluation doté d’outils variés conçus pour ancrer explicitement les composants de la scène, permettant ainsi une évaluation plus précise de l’alignement. Nous proposons également LEGO-Bench, un benchmark d’instructions détaillées spécifiant des dispositions complexes et des attributs propres aux environnements réels. Les expérimentations montrent que LEGO-Eval surpasse les VLM utilisés comme juges de 0,41 point d’indice F1 dans l’évaluation de l’alignement entre instruction et scène. L’évaluation sur LEGO-Bench met en évidence des limites significatives des méthodes actuelles de génération : sur l’ensemble des approches testées, les taux de réussite n’ont atteint au maximum que 10 % pour générer des scènes entièrement alignées avec les instructions fines.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
LEGO-Eval : Vers une évaluation fine pour la synthèse d'environnements incarnés 3D avec une augmentation d'outils | Articles de recherche | HyperAI