HyperAIHyperAI

Command Palette

Search for a command to run...

تجاوز التخصص: تقييم قدرات النماذج اللغوية الكبيرة المتعددة في تقدير العمر والجنس

Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh

الملخص

قد اكتسبت نماذج اللغات الكبيرة متعددة الأوضاع (MLLMs) شعبية كبيرة مؤخرًا. تشمل هذه النماذج القوية التجارية مثل ChatGPT-4V وGemini، بالإضافة إلى النماذج المفتوحة المصدر مثل LLaVA، والتي تعتبر في الأساس نماذج ذات أغراض عامة وتُستخدم لحل مجموعة متنوعة من المهام، بما في ذلك تلك المتعلقة بالرؤية الحاسوبية. تتمتع هذه الشبكات العصبية بمعرفة عامة قوية وقدرات استدلالية بحيث أثبتت قدرتها على العمل حتى في المهام التي لم يتم تدريبها عليها بشكل خاص. قارنا بين إمكانيات أقوى نماذج MLLM حاليًا: ShareGPT4V وChatGPT وLLaVA-Next في مهمة متخصصة لتقدير العمر والجنس باستخدام نموذجنا المتخصص الذي يعتبر من أفضل ما تم الوصول إليه حاليًا، MiVOLO. كما قمنا بتحديث MiVOLO ونقدم التفاصيل والمقياس الجديد في هذا المقال. قد أدت هذه المقارنة إلى بعض النتائج والأفكار المثيرة للإهتمام حول نقاط القوة والضعف للنماذج المشاركة. بالإضافة إلى ذلك، جربنا طرقًا مختلفة لتغليظ نموذج ShareGPT4V لهذه المهمة الخاصة، بهدف تحقيق أفضل النتائج فيها. رغم أن مثل هذا النموذج لن يكون عمليًا في الإنتاج بسبب كونه غالي الثمن للغاية مقارنة بنموذج متخصص مثل MiVOLO، إلا أنه يمكن أن يكون مفيدًا جدًا في بعض المهام، مثل تسمية البيانات (data annotation).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp