Q-Align: تعليم نماذج المعادلات الخطية المحدودة للتصنيف البصري من خلال مستويات محددة بنص متقطع

انفجار المحتوى البصري المتاح عبر الإنترنت يؤكد الحاجة إلى مقيم آلي دقيق يمكنه تقييم النقاط بشكل قوي عبر أنواع مختلفة من المحتوى البصري. بينما أظهرت الدراسات الحديثة الإمكانات الاستثنائية للنماذج متعددة الوسائط الكبيرة (LMMs) في مجموعة واسعة من المجالات ذات الصلة، في هذا البحث نستكشف كيفية تعليم هذه النماذج لتقييم البصرية بما يتماشى مع آراء البشر. لاحظنا أن المحكمين البشريين يتعلمون ويحكمون فقط على مستويات متقطعة محددة بالنص في الدراسات الذاتية، لذا نقترح تقليد هذه العملية الذاتية وتعليم النماذج متعددة الوسائط الكبيرة بمستويات التقييم المحددة بالنص بدلاً من النقاط. الأداء الذي حققه Q-Align المقترح يعتبر الأفضل على مستوى تقييم جودة الصور (IQA)، وتقييم الجمالية للصور (IAA)، وكذلك تقييم جودة الفيديو (VQA) تحت هيكل النموذج متعدد الوسائط الأصلي. باستخدام الخطة التعليمية، نقوم بتوحيد الثلاثة مهام في نموذج واحد، يُطلق عليه OneAlign. في تجاربنا، نوضح الميزة التي توفرها الخطة التعليمية القائمة على المستويات المتقطعة على النسخ القائمة على النقاط المباشرة بالنسبة للنماذج متعددة الوسائط الكبيرة. تم إصدار شفرتنا ومعلمات التدريب المسبقة على الرابط https://github.com/Q-Future/Q-Align.