4일 전
StreamVLN: SlowFast 컨텍스트 모델링을 통한 스트리밍 시각-언어 탐색
Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

초록
실세계 환경에서 시각-언어 네비게이션(VLN)은 에이전트가 지속적인 시각 스트림을 처리하고 언어 지시에 기반하여 저지연으로 행동을 생성해야 하는 요구사항을 가지고 있습니다. 비디오 기반 대형 언어 모델(Video-LLMs)이 최근의 발전을 주도했음에도 불구하고, 현재의 VLN 방법론은 세부적인 시각 이해, 장기적 맥락 모델링, 그리고 계산 효율성 사이에서 균형을 맞추는 데 어려움을 겪고 있습니다. 우리는 이러한 문제를 해결하기 위해 StreamVLN이라는 스트리밍 VLN 프레임워크를 소개합니다. 이 프레임워크는 혼합된 천천히-빠르게 맥락 모델링 전략을 사용하여 시각, 언어, 행동 입력 간의 교차로 이루어진 다중 모달 추론을 지원합니다.빠른 스트리밍 대화 맥락은 활성 대화의 슬라이딩 윈도우를 통해 반응성이 뛰어난 행동 생성을 촉진하며, 느린 업데이트 메모리 맥락은 3D 인식 토큰 프루닝 전략을 사용하여 과거의 시각 상태를 압축합니다. 이러한 천천히-빠르게 설계 덕분에 StreamVLN은 효과적인 KV 캐시 재사용으로 일관된 다중 턴 대화를 실현하며, 제한된 맥락 크기와 추론 비용으로 긴 비디오 스트림을 지원합니다.VLN-CE 벤치마크에서 수행한 실험 결과, StreamVLN은 안정적인 저지연과 함께 최신 수준의 성능을 보여주었으며, 실세계 배포에서 견고함과 효율성을 보장하였습니다. 프로젝트 페이지는 다음과 같습니다: https://streamvln.github.io/{https://streamvln.github.io/}.