HyperAI

Trotz neuer Fortschritte bei der automatischen Generierung von 3D-Szenen mithilfe großer Sprachmodelle (Large Language Models, LLMs) weisen die erzeugten Szenen oft unrealistische räumliche Anordnungen und Objektmerkmale auf, wie sie in realen Umgebungen vorkommen. Da dieses Problem auf unzureichend detaillierte, grob granulierte Anweisungen zurückzuführen ist, wird die Weiterentwicklung der 3D-Szenen-Synthese unter Anleitung detaillierter, fein granulierter Anweisungen, die reale Umgebungen realistisch widerspiegeln, entscheidend. Ohne solche realistischen Szenen kann die Ausbildung körperhafter Agenten in unrealistischen Umgebungen dazu führen, dass diese Prioritäten lernen, die sich erheblich von der Physik und Semantik der realen Welt unterscheiden, was ihre Leistung bei der praktischen Anwendung beeinträchtigt. Daher ist die Überprüfung der Ausrichtung zwischen fein granulierter Anweisung und generierter Szene für ein effektives Lernen unerlässlich. Aktuelle Evaluationsmethoden wie CLIPScore und visuelle Sprachmodelle (Vision-Language Models, VLMs) versagen jedoch oft bei der zuverlässigen Beurteilung dieser Ausrichtung. Dieser Mangel resultiert hauptsächlich aus ihrem oberflächlichen Verständnis von 3D-Szenen, was häufig zu unangemessen verankerten Szenenkomponenten führt. Um diesem Problem entgegenzuwirken, stellen wir LEGO-Eval vor, einen Evaluationsrahmen mit vielfältigen Werkzeugen, die speziell darauf ausgelegt sind, Szenenkomponenten explizit zu verankern, wodurch eine präzisere Beurteilung der Ausrichtung ermöglicht wird. Außerdem präsentieren wir LEGO-Bench, einen Benchmark mit detaillierten Anweisungen, die komplexe Anordnungen und Merkmale realer Umgebungen spezifizieren. Experimente zeigen, dass LEGO-Eval die Leistung von VLM-as-a-judge um 0,41 im F1-Score übertrifft, wenn es um die Bewertung der Ausrichtung zwischen Szene und Anweisung geht. Die Benchmarking-Evaluierung mit LEGO-Bench offenbart erhebliche Einschränkungen aktueller Generierungsmethoden. Bei allen untersuchten Ansätzen erreichte die Erfolgsrate bei der Erzeugung von Szenen, die vollständig mit fein granulierten Anweisungen übereinstimmen, maximal 10 %.

LEGO-Eval: Ein Ansatz für eine feinabgestimmte Bewertung der Synthese 3D-embodierter Umgebungen mit Werkzeugerweiterung

Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

LEGO-Eval: Ein Ansatz für eine feinabgestimmte Bewertung der Synthese 3D-embodierter Umgebungen mit Werkzeugerweiterung

Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

Abstract

KI mit KI entwickeln

Hyper Newsletters