LEGO-Eval: Ein Ansatz für eine feinabgestimmte Bewertung der Synthese 3D-embodierter Umgebungen mit Werkzeugerweiterung
Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

Abstract
Trotz neuer Fortschritte bei der automatischen Generierung von 3D-Szenen mithilfe großer Sprachmodelle (Large Language Models, LLMs) weisen die erzeugten Szenen oft unrealistische räumliche Anordnungen und Objektmerkmale auf, wie sie in realen Umgebungen vorkommen. Da dieses Problem auf unzureichend detaillierte, grob granulierte Anweisungen zurückzuführen ist, wird die Weiterentwicklung der 3D-Szenen-Synthese unter Anleitung detaillierter, fein granulierter Anweisungen, die reale Umgebungen realistisch widerspiegeln, entscheidend. Ohne solche realistischen Szenen kann die Ausbildung körperhafter Agenten in unrealistischen Umgebungen dazu führen, dass diese Prioritäten lernen, die sich erheblich von der Physik und Semantik der realen Welt unterscheiden, was ihre Leistung bei der praktischen Anwendung beeinträchtigt. Daher ist die Überprüfung der Ausrichtung zwischen fein granulierter Anweisung und generierter Szene für ein effektives Lernen unerlässlich. Aktuelle Evaluationsmethoden wie CLIPScore und visuelle Sprachmodelle (Vision-Language Models, VLMs) versagen jedoch oft bei der zuverlässigen Beurteilung dieser Ausrichtung. Dieser Mangel resultiert hauptsächlich aus ihrem oberflächlichen Verständnis von 3D-Szenen, was häufig zu unangemessen verankerten Szenenkomponenten führt. Um diesem Problem entgegenzuwirken, stellen wir LEGO-Eval vor, einen Evaluationsrahmen mit vielfältigen Werkzeugen, die speziell darauf ausgelegt sind, Szenenkomponenten explizit zu verankern, wodurch eine präzisere Beurteilung der Ausrichtung ermöglicht wird. Außerdem präsentieren wir LEGO-Bench, einen Benchmark mit detaillierten Anweisungen, die komplexe Anordnungen und Merkmale realer Umgebungen spezifizieren. Experimente zeigen, dass LEGO-Eval die Leistung von VLM-as-a-judge um 0,41 im F1-Score übertrifft, wenn es um die Bewertung der Ausrichtung zwischen Szene und Anweisung geht. Die Benchmarking-Evaluierung mit LEGO-Bench offenbart erhebliche Einschränkungen aktueller Generierungsmethoden. Bei allen untersuchten Ansätzen erreichte die Erfolgsrate bei der Erzeugung von Szenen, die vollständig mit fein granulierten Anweisungen übereinstimmen, maximal 10 %.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.