Command Palette
Search for a command to run...
Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

초록
비전-언어-행동(Vision-Language-Action, VLA) 모델의 지속적인 성공은 사전 학습된 비전-언어 모델(Vision-Language Models, VLMs)이 에이전트에게 전이 가능한 세계 지식과 비전-언어(VL) 기반 능력을 부여할 수 있다는 기대에서 비롯된다. 이는 더 넓은 일반화 능력을 갖춘 행동 모델의 기반을 마련한다. 그러나 이러한 VLMs가 행동 모달리티에 적응될 때, 원래의 VL 표현과 지식이 얼마나 보존되는지에 대한 명확한 이해는 여전히 부족하다. 본 연구에서는 VLA의 미세조정 과정에서 표현의 보존 여부를 체계적으로 탐구하며, 단순한 행동 미세조정이 시각적 표현의 품질 저하를 초래함을 보여준다. 이러한 영향을 정량적으로 분석하기 위해, VLA 모델의 은닉 표현을 탐색하고 주의 맵(attention maps)을 분석하였으며, 행동 미세조정이 VL 능력에 미치는 영향을 고립적으로 평가하기 위해 대조적 태스크와 방법을 설계하였다. 또한 시각적 표현을 일치시키기 위한 다양한 전략을 평가하고, 표현 품질 저하를 완화하며 분포 외(out-of-distribution, OOD) 시나리오에 대한 일반화 성능을 향상시키는 간단하면서도 효과적인 방법을 제안한다. 종합적으로 본 연구는 행동 미세조정과 VL 표현 품질 저하 사이의 상충 관계를 명확히 하며, 상속된 VL 능력을 회복하기 위한 실용적인 접근법을 제시한다. 코드는 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://blind-vla-paper.github.io