Command Palette

Search for a command to run...

7일 전

콘체르토: 공동 2D-3D 자기지도 학습이 공간 표현을 촉발한다

Yujia Zhang Xiaoyang Wu Yixing Lao Chengyao Wang Zhuotao Tian Naiyan Wang Hengshuang Zhao

콘체르토: 공동 2D-3D 자기지도 학습이 공간 표현을 촉발한다

초록

인간은 다중 감각의 유기적 협력(다중감각 융합)을 통해 추상적 개념을 학습하며, 형성된 이러한 인지 표현은 때로는 단일 감각 모달리티로부터도 다시 떠올릴 수 있다. 이 원리를 영감으로 삼아, 공간 인지에 대한 인간의 개념 학습을 최소한의 시뮬레이션으로 구현한 모델인 Concerto를 제안한다. Concerto는 3D 내모달 자기-정제(self-distillation)와 2D-3D 간의 교차모달 공동 임베딩(cross-modal joint embedding)을 결합한 구조를 가진다. 비록 간소한 구조를 지니고 있으나, Concerto는 제로샷(Zero-shot) 시각화 실험을 통해 보다 일관성 있고 정보량이 풍부한 공간 특징을 학습함을 입증하였다. 3D 장면 인지에 대한 선형 탐사(Linear Probing)에서, Concerto는 독립적인 최신 2D 및 3D 자기지도 학습 모델보다 각각 14.2%, 4.8% 높은 성능을 기록하였으며, 이들의 특징 병합 결과보다도 우수한 성능을 보였다. 전반적인 미세조정(Full Fine-tuning)을 수행한 경우, Concerto는 여러 장면 이해 벤치마크에서 새로운 최고 성능(SOTA)을 달성하였으며, 예를 들어 ScanNet 데이터셋에서 80.7%의 mIoU를 기록하였다. 또한, 비디오 기반 높이 올린 포인트 클라우드(Video-lifted Point Cloud)를 위한 공간 인지에 특화된 Concerto의 변형 모델과, Concerto의 표현을 CLIP의 언어 공간으로 선형으로 변환하는 번역기(Translator)를 제안한다. 이는 개방형 환경(Open-world)에서의 인지 기능을 가능하게 한다. 본 연구 결과는 Concerto가 뛰어난 세부 기하학적 및 의미적 일관성을 지닌 공간 표현을 자발적으로 형성함을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
콘체르토: 공동 2D-3D 자기지도 학습이 공간 표현을 촉발한다 | 연구 논문 | HyperAI초신경