시각적 현실을 넘어서: 칭화 월드아레나의 새로운 평가 시스템이 드러낸 실체적 세계 모델 역량 격차

5달 전

정보

인공지능

생성형 인공지능이 놀라울 정도로 사실적인 영상을 만들어낼 수 있다면, 진정한 체현형 지능이 머지않은 것일까요? 답은 그리 낙관적이지 않을지도 모릅니다.

지난 몇 년 동안 비디오 생성 모델은 놀라운 발전을 이루었습니다. 조명과 그림자 디테일부터 복잡한 동적 장면까지, 이제 많은 모델이 육안으로 거의 구별할 수 없는 이미지를 생성할 수 있습니다. 그러나 이러한 모델을 실제로 로봇 시스템에 적용하여 물리적 세계에서 의사 결정 및 실행에 사용할 때, 시각적 사실성이 기능적 신뢰성으로 이어지지 않는다는 난처한 현실이 드러납니다.

현재 실체화된 세계 모델에 대한 평가 시스템은 주로 "시각적 사실성"이라는 단일 차원 비교에 의존합니다. 즉, 가장 선명하고 부드러운 영상을 생성하는 모델이 더 나은 모델로 여겨집니다. 그러나 근본적인 질문이 간과되고 있습니다. 아름다운 영상을 생성할 수 있는 이러한 모델들이 과연 실제 물리적 세계에서 안정적인 의사 결정과 행동을 지원할 수 있을까요?

이것이 바로 새로운 평가 시스템인 월드아레나가 답을 찾고 해결하고자 하는 핵심 질문입니다.칭화대학교, 베이징대학교, 홍콩대학교, 프린스턴대학교, 중국과학원, 상하이 자오퉁대학교, 중국과학기술대학교, 싱가포르국립대학교 등 여러 기관이 제안한 월드아레나.시각적 외관에만 평가를 한정하는 대신, 처음으로 비디오 생성 품질과 구현된 작업의 기능성을 통합하여 "실제처럼 보이는지"부터 "실제로 사용 가능한지"까지 완전한 평가 프레임워크를 구축했습니다.

논문 제목: WorldArena: 구현된 세계 모델의 인식 및 기능적 유용성 평가를 위한 통합 벤치마크
서류 주소:

http://arxiv.org/abs/2602.08971
프로젝트 홈페이지:

http://world-arena.ai
평가 순위:

https://huggingface.co/spaces/WorldArena/WorldArena

코드 저장소:

https://github.com/tsinghua-fib-lab/WorldArena

여섯 가지 차원에서 "좋은" 영상 제작물의 기준을 재정의합니다.

생성된 영상의 품질을 체계적으로 평가하기 위해,WorldArena는 6가지 핵심 차원을 중심으로 구성되어 있습니다.그들은 시각적 미학에만 집중하는 것이 아니라 물리 법칙과 공간 지능까지 깊이 파고듭니다.

*WorldArena는 6가지 핵심 차원을 기준으로 월드 모델 생성 품질을 종합적으로 평가합니다.*

시각적 품질

시각적 품질은 가장 기본적인 지각 수준 평가입니다. 이는 이미지 선명도, 미적 점수, JEPA 표현 유사성 등의 지표를 통해 픽셀 수준에서 비디오의 사실성과 통계적 분포 유사성을 측정합니다.이 차원은 주로 다음 한 가지 질문에 답합니다. 생성된 결과가 시각적으로 실제 데이터 분포를 얼마나 잘 나타내는가?

액션 품질

동작 품질 차원은 광학 흐름 연속성, 동작 강도 분석 및 동작 부드러움을 통해 시간적 합리성에 중점을 둡니다.영상 속 물체의 움직임이 일관성 있고 안정적이며 자연 법칙을 따르는지 평가하십시오.모델이 선명한 프레임을 생성할 수 있다 하더라도, 동작 궤적에 도약이나 불연속성이 있다면 물리적 신뢰성은 여전히 불충분합니다.

콘텐츠 일관성

실제 세계에서 사물은 사라지거나 변형되지 않습니다. 콘텐츠 일관성 차원은 시간과 공간에 따른 주체와 배경의 안정성을 추적하여 구조적 변위, 주체 정체성 혼동 또는 배경 불일치와 같은 문제를 감지합니다.이 차원은 장기적인 과제를 지원하는 데 필수적인 "일관성"을 유지하는 능력을 강조합니다.

물리적 순응도

물리적 적합성은 비전과 기능을 연결하는 중요한 요소입니다. WorldArena는 특히 영상 속 로봇 팔과 물체 간의 상호작용이 현실적인지, 그리고 동작 궤적이 기본적인 역학 원리에 부합하는지를 평가합니다. 다시 말해, 모델은 단순히 "겉모습"만 그럴듯하게 보이는 것이 아니라 "정확하게" 움직여야 합니다. 이러한 측면은 모델을 실제 제어 및 계획에 활용할 수 있는지 여부와 직접적인 관련이 있습니다.

3D 정확도

구현된 지능은 3차원 공간 구조에 대한 이해를 기반으로 합니다. 3D 정확도 차원은 깊이 추정 오류 및 원근 일관성을 통해 모델이 장면의 공간 기하학적 관계를 제대로 포착하는지 여부를 검사합니다. 공간 관계가 왜곡되면 2차원 이미지가 아무리 사실적이라 하더라도 로봇은 해당 예측에 의존하여 정확한 작업을 수행할 수 없습니다.

제어 가능성

마지막으로 제어 가능성이 있는데, 이는 생성 모델이 실용화되기 위한 핵심적인 기능입니다.이 측면에서는 모델이 지시사항을 진정으로 "이해하는지", 의미론적 수준에서 사용자 입력에 정확하게 반응할 수 있는지, 그리고 다양한 조건에서 판별력 있는 결과를 생성할 수 있는지를 검토합니다.제어 가능성은 생성된 데이터의 품질뿐만 아니라 작업에 대한 적응성과도 관련이 있습니다.

이 여섯 가지 차원은 월드아레나가 제시하는 생성된 비디오 품질에 대한 종합적인 프로필을 구성합니다. 이 요소들은 더 이상 개별적인 지표가 아니라 서로를 뒷받침하며 하나의 목표를 향해 나아갑니다. 즉, 생성된 콘텐츠는 지각, 시간성, 물리, 공간 및 의미론 측면에서 높은 수준의 사실성을 갖춰야 한다는 것입니다.

진정한 시험대는 바로 이것입니다. 세계 모델이 임무 수행자로서의 역할을 제대로 해낼 수 있을까요?

영상 품질 평가가 "신체 검사"라면, 실제 동작 수행 기능 평가는 "실제 상황 연습"이라고 할 수 있습니다. 월드아레나의 또 다른 핵심적인 혁신은 현실적인 임무 수행 시나리오 내에 세계 모델을 배치한 선구적인 방식에 있습니다.세 가지 핵심 역할을 시작으로 그것의 진정한 실질적 가치를 살펴보겠습니다.

*이 시스템은 하위 작업 평가 시스템(데이터 합성 엔진, 전략 평가기, 실행 계획기)을 통합합니다.*

첫째, 데이터 생성 엔진 역할을 합니다.

세계 모델을 활용하여 하위 정책 모델(예: VLA) 학습에 필요한 고품질 합성 궤적 데이터를 생성할 수 있을까요? 실험 결과에 따르면 일부 모델은 성능 향상을 달성했지만, 전반적으로 합성 데이터의 품질은 실제 데이터에 비해 여전히 크게 떨어지며, 대부분의 모델은 정책 학습에서 안정적이고 신뢰할 수 있는 성능 향상을 제공하지 못하고 있습니다. 이는 세계 모델을 사용하여 "무에서 유를 창조하는" 학습 데이터 생성이 여전히 어려운 과제임을 의미합니다.

세계 모델을 데이터 합성 엔진으로 사용하여 학습시킨 VLA 모델의 성능 비교.

둘째, 전략 평가 도구로서의 역할을 합니다.

세계 모형이 실제 환경의 역동성을 정확하게 시뮬레이션하여 다양한 전략 모델의 성능 평가에서 실제 환경을 대체할 수 있을까요? 연구진은 다양한 기능을 가진 일련의 VLA(Visual Learning Assessment) 모델을 학습시키고, 실제 환경 시뮬레이션과 세계 모형 환경에서 테스트한 후, 두 결과 간의 상관관계를 비교했습니다. 결과는 상당한 차이를 보여주었습니다. 일부 모델(예: CtrlWorld)은 실제 환경과 최대 0.986의 상관관계를 달성하여 현실과 거의 구별할 수 없는 결과를 보인 반면, 다른 모델들은 시각적 평가 능력의 한계를 드러내며 중간 정도의 성능에 그쳤습니다.

*세계 모델과 물리적 시뮬레이션 환경을 기반으로 한 전략 평가 결과의 상관관계*

셋째, 실행 계획 수립 도구 역할을 합니다.

이 과제는 세계 모델을 폐루프 제어 시스템에 통합하여, 모델이 엔드투엔드 작업 실행에 직접 참여할 수 있도록 합니다. 실험 결과, 일부 모델은 시각적으로 그럴듯한 미래 예측을 생성할 수 있지만, 장기적이고 다단계적인 폐루프 제어 작업을 지원하는 성능은 Pi 0.5와 같은 성숙한 전용 정책 모델에 비해 여전히 크게 뒤처지는 것으로 나타났습니다. 이러한 모델들은 단기 예측에서는 우수한 성능을 보일 수 있지만, 복잡한 장기 의사 결정 과정에서는 방향을 잃는 경향이 있습니다.

시각적 사실주의는 기능적 사실주의와 동일하지 않으며, 이는 우리가 직면해야 할 차이점이다.

월드아레나는 현재 주류를 이루는 14가지 세계 모델을 체계적으로 평가하여 냉혹한 현실을 드러냅니다.시각적 생성 능력과 작업 실행 능력 사이에는 엄청난 격차가 존재합니다.

많은 모델들이 매우 사실적인 영상을 생성할 수 있지만, 복잡한 물리적 상호작용, 장기적인 일관성, 안정적인 정책 지원 측면에서 근본적인 한계를 드러냅니다. 따라서,월드아레나는 다양한 시청자층 간의 비교가 가능한 단일 점수로 다차원적인 비디오 평가 결과를 통합하는 종합적인 통합 평가 지표인 EWMScore를 도입했습니다.중요한 점은 EWMScore가 비디오 품질에 대한 인간의 주관적 평가와 매우 높은 양의 상관관계를 보인다는 것으로, 이는 지각 수준에서의 효과를 입증합니다.

그러나 연구자들이 EWMScore와 실제 작업 수행 능력 간의 상관관계를 분석한 결과, 더욱 충격적인 사실이 드러났습니다. 데이터 처리 작업과의 상관관계는 0.600에 불과했고, 동작 계획 작업과의 상관관계는 이보다 훨씬 낮은 0.360이었습니다. 이 데이터는 모델이 시각적으로 사람에게 만족스럽다고 해서 반드시 실제 작업을 효과적으로 지원할 수 있는 것은 아니라는 점을 명확히 보여줍니다. '미적으로 보기 좋은 것'과 '사용자 친화적인 것' 사이의 간극은 현재 기술이 극복해야 할 과제입니다.

*EWMScore와 인간 평가 및 체화된 하위 작업 수행 간의 상관관계 분석*

월드아레나의 중요성은 새로운 측정 기준을 제시하는 데 그치지 않고 연구자들의 초점을 변화시킨다는 점에 있습니다. 시각적 생성 경쟁에서 기능적 능력 검증으로, 지각적 사실성에서 물리적 이해와 장기적인 의사 결정 안정성으로 연구의 초점이 옮겨가게 된 것입니다.

세계 모델 경쟁이 더 이상 "누가 영화와 더 비슷한가"에 국한되지 않고, "누가 물리학을 더 잘 이해하는가, 누가 더 견고한가, 누가 실제 의사결정을 더 잘 지원하는가"로 바뀔 때, 체화된 지능의 발전은 진정으로 새로운 단계로 진입할 것입니다.

평가 시스템은 기술 발전의 방향을 결정합니다. 월드아레나가 제시한 것은 실용적인 체화된 지능으로 나아가기 위한 필수적인 경로입니다.