11일 전

DecisionNCE: 암묵적 선호 학습을 통한 몸체화된 다중모달 표현

Jianxiong Li, Jinliang Zheng, Yinan Zheng, Liyuan Mao, Xiao Hu, Sijie Cheng, Haoyi Niu, Jihao Liu, Yu Liu, Jingjing Liu, Ya-Qin Zhang, Xianyuan Zhan
DecisionNCE: 암묵적 선호 학습을 통한 몸체화된 다중모달 표현
초록

다중모달 사전학습은 자율 로봇의 표현 학습을 위한 세 가지 핵심 목표—1) 국소적 및 전역적 작업 진행 상황 추출, 2) 시각적 표현의 시간적 일관성 강화, 3) 궤적 수준의 언어 기반 지시어 통합—을 효과적으로 달성하는 전략이다. 기존의 대부분의 방법들은 이 세 목표를 별도의 목적함수로 접근하나, 이는 종종 하위 최적 해에 머무르는 경향이 있다. 본 논문에서는 이미지 시퀀스로부터 의미 있는 작업 진행 정보를 동시에 추출하고, 언어 지시어와 원활하게 정렬할 수 있는 통합 목적함수를 제안한다. 우리는 시각적 궤적과 해당되는 언어 지시어 간의 내재적 일치도가 불일치 쌍보다 높다는 암묵적 선호(implicit preference)를 활용하여, 보편적인 브래들리-테리 모델(Bradley-Terry model)을 적절한 보상 재매개변수화(reparameterization)를 통해 표현 학습으로 전환할 수 있음을 발견하였다. 이를 통해 도출된 프레임워크인 DecisionNCE는 InfoNCE 스타일의 목적함수를 모방하지만, 결정 수립(design-making) 작업에 특화된 독창적인 구조를 지닌다. 이는 시각적 표현의 시간적 일관성을 암묵적 시간 대비 학습(implicit time contrastive learning)을 통해 강화하며, 다중모달 공동 인코딩(multimodal joint encoding)을 통해 궤적 수준의 지시어 기반 지능을 보장함으로써 국소적 및 전역적 작업 진행 특징을 우아하게 추출하는 몸체화된 표현 학습 프레임워크를 제공한다. 시뮬레이션 및 실제 로봇 환경에서의 평가 결과, DecisionNCE가 다양한 후속 정책 학습 작업을 효과적으로 지원함을 입증하였으며, 통합된 표현 학습과 보상 학습을 위한 유연한 솔루션을 제시한다. 프로젝트 페이지: https://2toinf.github.io/DecisionNCE/

DecisionNCE: 암묵적 선호 학습을 통한 몸체화된 다중모달 표현 | 최신 연구 논문 | HyperAI초신경