HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

لا تُعَمِّى VLA الخاصة بك: محاذاة التمثيل البصري للعامة خارج النطاق

Nikita Kachaev Mikhail Kolosov Daniil Zelezetsky Alexey K. Kovalev Aleksandr I. Panov

لا تُعَمِّى VLA الخاصة بك: محاذاة التمثيل البصري للعامة خارج النطاق

الملخص

إن النجاح المتزايد للنماذج البصرية-اللغوية-العملية (VLA) يعود إلى الوعود التي تقدمها النماذج البصرية-اللغوية المُدرَّبة مسبقًا (VLMs)، التي تُمكّن الوكالات من امتلاك معرفة عالمية قابلة للنقل، وتموضع بصري-لغوي (VL)، مما يُعد أساسًا لبناء نماذج إجرائية تتمتع بقدرة تعميم أوسع. ومع ذلك، عند تكييف هذه النماذج VLMs لتمثيل مودالية الإجراء (action modality)، لا يزال غير واضح إلى أي حد تُحافظ على التمثيلات والمعارف البصرية-اللغوية الأصلية. في هذا العمل، نُجري دراسة منهجية لRetention التمثيلات أثناء التدريب الدقيق (fine-tuning) للنماذج VLA، ونُظهر أن التدريب الدقيق العادي على المهام الإجرائية يؤدي إلى تدهور في تمثيلات الصور. وللتمييز والقياس الدقيق لهذه التأثيرات، نُحلل التمثيلات المخفية في نماذج VLA ونُجري تحليلًا لخرائط الانتباه (attention maps)، ونُصمم مجموعة من المهام المُستهدفة والأساليب المُقارنة بين نماذج VLA ونماذج VLM المُقابلة لها، بهدف عزل التغيرات في القدرات البصرية-اللغوية الناتجة عن التدريب الدقيق على المهام الإجرائية. كما نُقيّم طيفًا من الاستراتيجيات المُستخدمة لتوحيد التمثيلات البصرية، ونُقدّم طريقة بسيطة ولكن فعّالة تُقلل من تدهور التمثيلات وتحسّن القدرة على التعميم في السيناريوهات خارج التوزيع (OOD). في المجمل، تُوضّح تحليلاتنا التناقض بين التدريب الدقيق على الإجراءات وانهيار تمثيلات VL، وتحدد مناهج عملية لاستعادة القدرات البصرية-اللغوية المُرَتَّبة. يُمكن الوصول إلى الشيفرة المصدرية بشكل علني من خلال: https://blind-vla-paper.github.io

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
لا تُعَمِّى VLA الخاصة بك: محاذاة التمثيل البصري للعامة خارج النطاق | الأوراق البحثية | HyperAI