HyperAIHyperAI

Command Palette

Search for a command to run...

Q-Align: تعليم نماذج المعادلات الخطية المحدودة للتصنيف البصري من خلال مستويات محددة بنص متقطع

الملخص

انفجار المحتوى البصري المتاح عبر الإنترنت يؤكد الحاجة إلى مقيم آلي دقيق يمكنه تقييم النقاط بشكل قوي عبر أنواع مختلفة من المحتوى البصري. بينما أظهرت الدراسات الحديثة الإمكانات الاستثنائية للنماذج متعددة الوسائط الكبيرة (LMMs) في مجموعة واسعة من المجالات ذات الصلة، في هذا البحث نستكشف كيفية تعليم هذه النماذج لتقييم البصرية بما يتماشى مع آراء البشر. لاحظنا أن المحكمين البشريين يتعلمون ويحكمون فقط على مستويات متقطعة محددة بالنص في الدراسات الذاتية، لذا نقترح تقليد هذه العملية الذاتية وتعليم النماذج متعددة الوسائط الكبيرة بمستويات التقييم المحددة بالنص بدلاً من النقاط. الأداء الذي حققه Q-Align المقترح يعتبر الأفضل على مستوى تقييم جودة الصور (IQA)، وتقييم الجمالية للصور (IAA)، وكذلك تقييم جودة الفيديو (VQA) تحت هيكل النموذج متعدد الوسائط الأصلي. باستخدام الخطة التعليمية، نقوم بتوحيد الثلاثة مهام في نموذج واحد، يُطلق عليه OneAlign. في تجاربنا، نوضح الميزة التي توفرها الخطة التعليمية القائمة على المستويات المتقطعة على النسخ القائمة على النقاط المباشرة بالنسبة للنماذج متعددة الوسائط الكبيرة. تم إصدار شفرتنا ومعلمات التدريب المسبقة على الرابط https://github.com/Q-Future/Q-Align.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp