HyperAIHyperAI

Command Palette

Search for a command to run...

SceneSplat: 시각-언어 사전학습을 통한 가우시안 스플래터링 기반의 장면 이해

Yue Li Qi Ma Runyi Yang Huapeng Li Mengjiao Ma et al

초록

실제 환경의 3차원(3D) 장면을 포괄적으로 이해하기 위해서는 사전에 알려지지 않은 또는 임의의 카테고리를 인식하는 것이 필수적이다. 현재까지 제안된 모든 기법들은 학습 단계나 추론 단계에서 2차원(2D) 또는 텍스트 모달리티를 활용하고 있다. 이는 3D 데이터만을 사용하여 의미 정보를 엔드투엔드로 학습할 수 있는 모델과 이를 훈련할 수 있는 적절한 데이터의 명백한 부재를 시사한다. 한편, 3D 가우시안 스플래팅(3D Gaussian Splatting, 3DGS)은 다양한 시각 작업에서 3D 장면 표현의 사실상 표준으로 부상하고 있다. 그러나 3DGS에 일반화 가능한 방식으로 의미적 추론을 효과적으로 통합하는 것은 여전히 열린 과제로 남아 있다. 이러한 한계를 극복하기 위해, 본 연구에서는 3DGS를 원천적으로 활용하는 최초의 대규모 실내 장면 이해 방법론인 SceneSplat을 제안한다. 더불어, 레이블이 없는 장면에서 풍부한 3D 특징 학습을 가능하게 하는 자기지도 학습 방식을 제안한다. 제안된 방법론을 구현하기 위해, ScanNet 및 Matterport3D와 같은 7개의 기존 데이터셋에서 유도된 총 7,916개의 실내 장면으로 구성된, 실내 장면용으로 최초의 대규모 3DGS 데이터셋인 SceneSplat-7K를 소개한다. SceneSplat-7K를 생성하기 위해 L4 GPU 기준 약 150 GPU일에 해당하는 계산 자원이 필요했으며, 이는 실내 장면 기반 3DGS 기반 추론에 대한 표준화된 벤치마킹을 가능하게 한다. SceneSplat-7K를 대상으로 수행한 철저한 실험 결과는 제안된 방법론이 기존 벤치마크 대비 상당한 성능 향상을 보임을 입증한다.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
SceneSplat: 시각-언어 사전학습을 통한 가우시안 스플래터링 기반의 장면 이해 | 문서 | HyperAI초신경