SoFar: 언어 기반 방향성은 공간적 추론과 객체 조작을 연결한다

공간지능은 몸체화된 인공지능(embodied AI)의 핵심 요소로, 로봇이 환경을 이해하고 상호작용할 수 있도록 지원한다. 최근의 기술 발전은 비전-언어 모델(VLM)의 객체 위치 및 위치 관계 인식 능력을 향상시켰지만, 여전히 객체의 정확한 방향성(orientation)을 이해할 수 있는 능력이 부족하다. 이는 미세한 조작을 포함한 작업 수행에 있어 핵심적인 요구사항이다. 이러한 한계를 극복하기 위해서는 기하학적 추론 외에도 방향성을 표현할 수 있는 표현력이 풍부하고 직관적인 방식이 필요하다. 본 연구에서는 자연어가 표준 기준 프레임보다 더 유연한 표현 공간을 제공할 수 있으며, 특히 지시에 따라 동작하는 로봇 시스템에 적합하다고 제안한다. 본 논문에서는 기준 프레임에 의존하지 않고 자연어를 통해 객체의 방향성을 정의하는 ‘의미적 방향성(semantic orientation)’이라는 개념을 도입한다(예: USB 포트의 ‘삽입 방향’ 또는 나이프의 ‘손잡이 방향’). 이를 뒷받침하기 위해 기하학적 이해와 기능적 의미를 연결하는 의미적 방향성으로 3D 모델을 주석화한 대규모 데이터셋인 OrienText300K를 구축하였다. VLM 시스템에 의미적 방향성을 통합함으로써, 로봇은 위치적 제약뿐 아니라 방향성 제약까지 고려한 조작 동작을 생성할 수 있게 되었다. 시뮬레이션 및 실제 환경에서 수행된 광범위한 실험 결과, 제안하는 방법이 로봇 조작 능력을 크게 향상시킴을 입증하였으며, Open6DOR에서는 48.7%의 정확도, SIMPLER에서는 74.9%의 정확도를 달성하였다.