HyperAI
منذ 4 أيام

StreamVLN: التنقل البصري واللغوي عبر نمذجة السياق البطيء والسريع

Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang
StreamVLN: التنقل البصري واللغوي عبر نمذجة السياق البطيء والسريع
الملخص

التنقل المرتبط بالرؤية واللغة (VLN) في البيئات الحقيقية يتطلب من الوكلاء معالجة تدفقات بصرية مستمرة وإنتاج أفعال بتأخير منخفض مبني على تعليمات لغوية. رغم أن نماذج اللغة الكبيرة المستندة إلى الفيديو (Video-LLMs) قد ساهمت في التقدم الأخير، فإن الطرق الحالية للـ VLN التي تعتمد على Video-LLM غالباً ما تواجه تنازلات بين فهم البصريات الدقيق، ونمذجة السياق طويل المدى، وكفاءة الحساب. نقدم StreamVLN، وهو إطار عمل للـ VLN يعمل بنظام مزدوج بطيء-سريع لنمذجة السياق يدعم الاستدلال متعدد الأوضاع على مدخلات الرؤية واللغة والأفعال المتداخلة. يسهل السياق الحواري سريع التدفق إنتاج الأفعال الاستجابية من خلال نافذة انزلاقية للحوار النشط، بينما يقوم السياق الذاكرة البطيء بالتحديث بتقليص الحالات البصرية التاريخية باستخدام استراتيجية تقليم رموز واعية ثلاثية الأبعاد. بفضل هذا التصميم البطيء-السريع، يحقق StreamVLN حوارًا متعدد الأدوار متماسكًا من خلال إعادة استخدام ذاكرة الكاش (KV) بكفاءة، مما يدعم تدفقات الفيديو طويلة الأمد مع حجم سياق محدد وتكلفة استدلال محدودة. تظهر التجارب على مقاييس VLN-CE أداءً عالميًا رائدًا مع تأخير منخفض ثابت، مما يضمن المتانة والكفاءة في الانتشار الحقيقي. صفحة المشروع هي:https://streamvln.github.io/{https://streamvln.github.io/}.