16일 전

시각-언어 탐색에서 무작위 환경 믹스업 적용

Chong Liu, Fengda Zhu, Xiaojun Chang, Xiaodan Liang, Zongyuan Ge, Yi-Dong Shen
시각-언어 탐색에서 무작위 환경 믹스업 적용
초록

시각-언어 탐색(Vision-Language Navigation, VLN) 작업은 에이전트가 시각적 관측을 인식하면서 자연어 지시문을 이해하며 단계적으로 탐색해야 하는 과제를 요구한다. 작은 데이터 규모와 방대한 탐색 공간 간의 비율 차이로 인해 발생하는 대규모 데이터 편향은 VLN 작업을 더욱 어렵게 만든다. 기존 연구들은 데이터 편향을 줄이기 위해 다양한 데이터 증강 기법을 제안해왔다. 그러나 이러한 기법들은 서로 다른 주거 환경(주택 시나리오) 간의 데이터 편향을 명시적으로 줄이지 못한다. 그 결과, 에이전트는 관측한 환경에 과적합(overfitting)되며, 미관측 환경에서는 낮은 탐색 성능을 보이게 된다. 이 문제를 해결하기 위해 우리는 환경의 믹스업(Mixup)을 통해 교차 연결된 주거 환경을 생성하는 새로운 데이터 증강 기법인 랜덤 환경 믹스업(Random Environmental Mixup, REM)을 제안한다. 구체적으로, 각 시나리오에 대해 방 연결 그래프를 기반으로 핵심 시점(key viewpoints)을 선정한 후, 서로 다른 시나리오의 핵심 시점을 교차 연결하여 증강된 시나리오를 구성한다. 이후, 이러한 교차 연결된 시나리오에서 증강된 지시문-경로 쌍(instruction-path pairs)을 생성한다. 기준 데이터셋에서의 실험 결과, REM을 통해 생성된 증강 데이터는 에이전트가 관측한 환경과 미관측 환경 간의 성능 차이를 줄이고 전반적인 탐색 성능을 향상시킴으로써, 기존 최고의 성능을 기록한 모델로 인정받았다. 코드는 공개되었으며, 다음 링크에서 확인할 수 있다: https://github.com/LCFractal/VLNREM.

시각-언어 탐색에서 무작위 환경 믹스업 적용 | 최신 연구 논문 | HyperAI초신경