19일 전

메타학습을 활용한 메모리 시각-음성 내부 탐색을 위한 다중 모달 집계 방법

Liqi Yan, Dongfang Liu, Yaoxian Song, Changbin Yu
메타학습을 활용한 메모리 시각-음성 내부 탐색을 위한 다중 모달 집계 방법
초록

시각과 음성은 에이전트의 상호작용 및 학습에 있어 핵심적인 두 가지 요소이다. 본 논문에서는 음성 명령을 수신하고 시각 관측의 다중모달 정보를 분석함으로써 로봇의 환경 인식 능력을 향상시키기 위한 새로운 실내 내비게이션 모델인 메모리 시각-음성 실내 내비게이션(Memory Vision-Voice Indoor Navigation, MVV-IN)을 제안한다. 본 모델은 1인칭 시점의 단일 RGB 카메라로 촬영한 이미지를 사용하며, 에이전트가 핵심 영역에 집중할 수 있도록 자체 주의(self-attention) 메커니즘을 도입한다. 에이전트가 불필요하게 특정 작업을 반복하지 않도록 하며, 새로운 환경에 적절히 적응할 수 있도록 하기 위해 메타학습(meta-learning) 기법을 활용한다. 또한 시각 관측에서 추출한 다양한 기능적 특징을 실험적으로 평가하였으며, 비교 실험을 통해 제안한 방법이 최신 기준(SOTA) 모델들을 상회함을 입증하였다.

메타학습을 활용한 메모리 시각-음성 내부 탐색을 위한 다중 모달 집계 방법 | 연구 논문 | HyperAI초신경