HPT++: توجيه هرمي لنماذج الرؤية واللغة مع توليد معرفي متعدد الحجم ونمذجة هيكلية محسّنة

أصبح التعلم بالـPrompt استراتيجية شائعة لتكيف نماذج الأساس البصرية-اللغوية (VLMs)، مثل CLIP، مع المهام المحددة. مع ظهور النماذج اللغوية الكبيرة (LLMs)، استكشفت دراسات حديثة إمكانية استخدام الوصف المرتبط بالفئة لتعزيز فعالية الـPrompt. ومع ذلك، فإن الوصف التقليدي يفتقر إلى معلومات منظمة صريحة ضرورية لتمثيل الارتباطات بين العناصر الأساسية مثل الكيانات أو الخصائص فيما يتعلق بفئة معينة. وبما أن الطرق الحالية لضبط الـPrompt لا تولي اهتمامًا كبيرًا لإدارة المعرفة المنظمة، فإن هذه الورقة تقترح الاستفادة من LLMs لبناء رسم بياني لكل وصف، بهدف تفضيل هذه المعرفة المنظمة. ونتيجة لذلك، نقترح منهجية جديدة تُسمى التخصيص الهرمي للـPrompt (HPT)، التي تتيح نمذجة متزامنة للمعرفة المنظمة والمعرفة اللغوية التقليدية. بشكل خاص، نُقدّم وحدة انتباه موجهة بالعلاقة لالتقاط الترابطات الثنائية بين الكيانات والخصائص في عملية تعلم الـPrompt على المستوى المنخفض. علاوة على ذلك، وباستخدام الـPrompts على المستويات العليا والعالمية لتمثيل المعنى العام، يُشكّل الهيكل الهرمي المقترح روابط متعددة المستويات، مما يمكّن النموذج من التعامل مع علاقات أكثر تعقيدًا وطويلة الأمد. وأخيرًا، من خلال تحسين توليد المعرفة متعددة الحُدود، وإعادة تصميم وحدة إعادة توزيع الانتباه الموجهة بالعلاقة، وإدراج قيود متسقة على المُشفّر النصي الهرمي، نقترح HPT++، التي تُحسّن أداء HPT بشكل إضافي. أُجريت تجاربنا في مجموعة واسعة من إعدادات التقييم، تشمل التعميم من الأساس إلى الجديد، والتقييم عبر المجموعات المختلفة، والتعميم عبر المجالات. وأظهرت النتائج الواسعة والدراسات التحليلية فعالية منهجنا، الذي يتفوق باستمرار على الطرق الحالية الأفضل (SOTA).