HyperAIHyperAI
منذ 7 أيام

تحسين التعلُّم على تحديد مواقع الكائنات يُحسِّن التفكير المكاني في نماذج LLM البصرية

Kanchana Ranasinghe, Satya Narayan Shukla, Omid Poursaeed, Michael S. Ryoo, Tsung-Yu Lin
تحسين التعلُّم على تحديد مواقع الكائنات يُحسِّن التفكير المكاني في نماذج LLM البصرية
الملخص

تم دمج نماذج اللغة الكبيرة (LLMs) في المهام المتعلقة بالحقل البصري، مما أدى إلى ظهور ما يُعرف بنماذج اللغة البصرية (V-LLMs)، والتي حققت أداءً متميزًا في المهام المتعددة بين الرؤية واللغة، خاصة في مهام الإجابة على الأسئلة المرئية (VQA). ومع ذلك، تُظهر النماذج الحالية من نوع V-LLMs (مثل BLIP-2 وLLaVA) ضعف القدرة على التفكير المكاني ووعي المكانية. وعلى الرغم من قدرتها على إنتاج إجابات نصية غنية بالتفاصيل ومركبة، فإنها تفشل في مهام بسيطة مثل التمييز بين الموقع الأيسر مقابل الأيمن. في هذا العمل، نستكشف كيف يمكن لأساليب التدريب المُحسَّنة بالتعليمات القائمة على الإحداثيات في فضاء الصورة أن تُضفي وعيًا مكانيًا على نماذج V-LLMs. ونكتشف تمثيلات إحداثيات مثلى، وأساليب فعالة من حيث البيانات للتدريب المُحسَّن بالتعليمات، واستراتيجيات توليد بيانات افتراضية تؤدي إلى تحسين الوعي المكاني في نماذج V-LLMs. علاوة على ذلك، فإن النموذج الناتج يُحسِّن أداء مهام الإجابة على الأسئلة المرئية في مجالات الصورة والفيديو، ويقلل من الظواهر غير المرغوب فيها مثل التخيلات غير الصحيحة، ويوفر وصفًا أفضل للأشياء في السياق. وقد أثبتت التجارب التي أجريت على 5 مهام متعددة بين الرؤية واللغة، باستخدام 14 مجموعة بيانات مختلفة، تحسنًا واضحًا في الأداء مقارنةً بالأساليب السابقة، وذلك بفضل الإطار المُقترح.

تحسين التعلُّم على تحديد مواقع الكائنات يُحسِّن التفكير المكاني في نماذج LLM البصرية | أحدث الأوراق البحثية | HyperAI