Command Palette
Search for a command to run...
Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

要約
大規模言語モデル(LLM)を用いた3Dシーンの自動生成に関する最近の進展にもかかわらず、生成されたシーンは現実世界の環境に見られる現実的な空間配置やオブジェクト属性を欠くことが多く、その原因は指示の詳細度が不十分で粗い粒度であることに起因する。この問題を克服するため、現実世界の環境を反映したより詳細で細粒度の指示に基づく3Dシーン合成の進展が不可欠である。現実性に欠けるシーンを用いて体化エージェント(embodied agents)を学習させると、そのエージェントは現実世界の物理法則や意味論と大きく乖離した事前知識(prior)を学習してしまう可能性があり、実装時に性能が著しく低下する。したがって、細粒度の指示と生成されたシーンとの整合性(alignment)を検証することは、効果的な学習のための鍵となる。しかし、現在の評価手法、たとえばCLIPScoreや視覚言語モデル(VLM)は、こうした整合性を信頼性高く評価できないことが多く、その主な原因は3Dシーンに対する浅い理解にあり、結果としてシーンの構成要素が適切に根拠づけられていないことにある。この課題に対処するため、本研究では、シーンの構成要素を明示的に根拠づける多様なツールを備えた評価フレームワーク「LEGO-Eval」を提案する。また、現実世界の環境の複雑な配置や属性を明示的に指定する詳細な指示を収集したベンチマーク「LEGO-Bench」も提示する。実験の結果、LEGO-EvalはVLM-as-a-judgeと比較して、シーン-指示の整合性評価において0.41のF1スコアの向上を達成した。LEGO-Benchを用いたベンチマーク評価では、現行の生成手法に顕著な限界が明らかになった。評価対象のすべてのアプローチにおいて、細粒度の指示と完全に整合するシーンを生成できた割合は、最大で10%にとどまった。