Discord에서 논의하기

5달 전

다중 작업 학습

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

초록

시각적 공간적 추론은 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 객체의 속성과 공간적 관계를 이해할 수 있도록 하기 위해 핵심적인 역할을 하며, 현재의 모델들은 여전히 3D 인지 기반의 추론에서 어려움을 겪고 있다. 기존의 접근 방식은 일반적으로 RGB 입력에 깊이(depth) 및 세그멘테이션(segmentation)과 같은 보조 모달리티를 추가함으로써 인지 능력을 향상시키거나, 공간적 VQA(Vision Question Answering) 데이터셋에서 학습하고 강화 학습을 적용함으로써 추론 능력을 개선하는 방식으로, 두 측면을 별도로 다룬다. 본 연구에서는 통합적인 MLLM이 공간적 인지 능력을 내재적으로 향상시키고, 적응형 상호작용 추론을 통해 더 강력한 공간 지능을 발휘할 수 있는지 탐구한다. 우리는 깊이와 세그멘테이션을 보조 모달리티로 활용하며, 두 단계에 걸쳐 보조 모달리티 생성 능력과 적응형 상호작용 추론 능력을 습득하도록 훈련하는 통합형 MLLM인 COOPER(COoperative Perception and Reasoning)을 제안한다. COOPER는 공간적 추론 성능에서 평균 6.91%의 향상을 달성하면서도 일반적인 성능을 유지한다. 또한, 보조 모달리티 생성에만 특화된 변형 모델도 거리 및 크기 추정에서 7.92%의 성능 향상을 기록하며, 보조 모달리티 생성을 학습하는 것이 공간 지식을 내재화하고 공간 이해 능력을 강화하는 데 기여함을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Discord에서 논의하기

5달 전

다중 작업 학습

Zefeng Zhang Xiangzhao Hao Hengzhu Tang Zhenyu Zhang Jiawei Sheng Xiaodong Li Zhenyang Li Li Gao Daiting Shi Dawei Yin

초록

시각적 공간적 추론은 다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)이 객체의 속성과 공간적 관계를 이해할 수 있도록 하기 위해 핵심적인 역할을 하며, 현재의 모델들은 여전히 3D 인지 기반의 추론에서 어려움을 겪고 있다. 기존의 접근 방식은 일반적으로 RGB 입력에 깊이(depth) 및 세그멘테이션(segmentation)과 같은 보조 모달리티를 추가함으로써 인지 능력을 향상시키거나, 공간적 VQA(Vision Question Answering) 데이터셋에서 학습하고 강화 학습을 적용함으로써 추론 능력을 개선하는 방식으로, 두 측면을 별도로 다룬다. 본 연구에서는 통합적인 MLLM이 공간적 인지 능력을 내재적으로 향상시키고, 적응형 상호작용 추론을 통해 더 강력한 공간 지능을 발휘할 수 있는지 탐구한다. 우리는 깊이와 세그멘테이션을 보조 모달리티로 활용하며, 두 단계에 걸쳐 보조 모달리티 생성 능력과 적응형 상호작용 추론 능력을 습득하도록 훈련하는 통합형 MLLM인 COOPER(COoperative Perception and Reasoning)을 제안한다. COOPER는 공간적 추론 성능에서 평균 6.91%의 향상을 달성하면서도 일반적인 성능을 유지한다. 또한, 보조 모달리티 생성에만 특화된 변형 모델도 거리 및 크기 추정에서 7.92%의 성능 향상을 기록하며, 보조 모달리티 생성을 학습하는 것이 공간 지식을 내재화하고 공간 이해 능력을 강화하는 데 기여함을 시사한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

COOPER: 공간 지능에서 협업적 인식과 추론을 위한 통합 모델 | 문서 | HyperAI초신경