HyperAIHyperAI
منذ 7 أيام

روبو-إل إم: مهام الرؤية الروبوتية القائمة على نماذج اللغة الكبيرة متعددة الوسائط

Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
روبو-إل إم: مهام الرؤية الروبوتية القائمة على نماذج اللغة الكبيرة متعددة الوسائط
الملخص

تتطلب تطبيقات الرؤية الروبوتية غالبًا مجموعة واسعة من مهام الإدراك البصري، مثل اكتشاف الكائنات، وتقسيمها، وتمييزها. وعلى الرغم من التقدم الكبير المحرز في كل مهمة على حدة، إلا أن دمج النماذج المتخصصة في أنبوب بصري موحد يشكل تحديات هندسية كبيرة وتكاليف عالية. في الآونة الأخيرة، ظهرت النماذج الكبيرة متعددة الوسائط (MLLMs) كأساس جديد لعدد من المهام اللاحقة. نحن نرى أن الاستفادة من قدرات التدريب المسبق في MLLMs تتيح إنشاء إطار مبسط، مما يقلل الحاجة إلى مشغلات مخصصة لكل مهمة. وبشكل خاص، تُمكّن المعرفة المُدرّبَة مسبقًا على نطاق واسع في MLLMs من تحسين التكييف (fine-tuning) بسهولة للمهام اللاحقة في الرؤية الروبوتية، مع تحقيق أداءً متفوقًا. نقدّم إطار RoboLLM، المُزوّد ببنية BEiT-3، لمعالجة جميع مهام الإدراك البصري في تحدي ARMBench – وهو مجموعة بيانات واسعة النطاق تتعلق بمهام التلاعب الروبوتية في سيناريوهات مستودعات حقيقية. لا يتفوق RoboLLM على النماذج الحالية فحسب، بل يقلل أيضًا بشكل كبير من العبء الهندسي المرتبط باختيار النماذج وضبطها. تم إتاحة الشفرة المصدرية للجمهور عبر الرابط: https://github.com/longkukuhi/armbench.

روبو-إل إم: مهام الرؤية الروبوتية القائمة على نماذج اللغة الكبيرة متعددة الوسائط | أحدث الأوراق البحثية | HyperAI