Command Palette

Search for a command to run...

19일 전

LEGO-Eval: 도구 보강을 통한 3차원 몸체 환경 생성에 대한 세부 평가 방향

Gyeom Hwangbo Hyungjoo Chae Minseok Kang Hyeonjong Ju Soohyun Oh Jinyoung Yeo

LEGO-Eval: 도구 보강을 통한 3차원 몸체 환경 생성에 대한 세부 평가 방향

초록

최근 대규모 언어 모델(Large Language Models, LLMs)을 활용한 3D 장면 자동 생성 기술이 급속도로 발전하고 있으나, 생성된 장면은 실제 환경에서 관찰되는 현실적인 공간 배치와 객체 속성의 부재를 보이는 경우가 많다. 이 문제는 지시사항(instruction)의 세부 정보가 부족하고 해상도가 낮은 데서 기인하므로, 실제 환경의 특성을 반영하는 더 세밀하고 구체적인 지시사항을 기반으로 3D 장면 생성을 유도하는 기술의 발전이 절실한 상황이다. 이러한 현실적인 장면이 부족할 경우, 비현실적인 환경에서 몸체화된 에이전트(embodied agents)를 훈련시키면, 실제 세계의 물리 법칙과 의미론과 크게 벗어난 사전 지식(prior)을 학습하게 되어 실전 적용 시 성능 저하를 초래할 수 있다. 따라서 생성된 장면과 세밀한 지시사항 간의 일치도(alignment)를 확인하는 것은 효과적인 학습을 위해 필수적이다. 그러나 현재의 평가 방법, 예를 들어 CLIPScore나 시각-언어 모델(Vision-Language Models, VLMs)은 이러한 일치도를 신뢰할 수 있게 평가하지 못하는 경우가 많다. 이 한계는 주로 3D 장면에 대한 깊이 있는 이해 부족에서 비롯되며, 이로 인해 장면 구성 요소가 적절히 지각되지 않는 문제가 발생한다. 이를 해결하기 위해 우리는 장면 구성 요소를 명시적으로 지각할 수 있도록 다양한 도구를 갖춘 평가 프레임워크인 LEGO-Eval을 제안한다. 또한, 실제 환경의 복잡한 배치와 속성을 정확히 지정하는 세부 지시사항을 포함한 벤치마크인 LEGO-Bench를 제시한다. 실험 결과, LEGO-Eval은 VLM을 평가자로 사용하는 기법 대비 0.41의 F1 점수 향상을 기록하며 장면-지시사항 일치도 평가에서 뛰어난 성능을 보였다. LEGO-Bench를 활용한 벤치마킹 결과, 현재의 생성 기법들은 심각한 한계를 드러냈다. 평가된 모든 접근 방식에서, 세밀한 지시사항과 완전히 일치하는 장면을 생성한 성공률은 최대 10%에 그쳤다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
LEGO-Eval: 도구 보강을 통한 3차원 몸체 환경 생성에 대한 세부 평가 방향 | 연구 논문 | HyperAI초신경