HyperAIHyperAI

Command Palette

Search for a command to run...

من التدريب الحر إلى التكيف: رؤى تجريبية حول فهم نماذج LLMs متعددة الوسائط لمعلومات الكشف

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

رغم القدرات اللافتة للنماذج الكبيرة متعددة الوسائط (MLLMs) في دمج الوسائط النصية والبصرية، تبقى هناك تحديات في فهم عناصر الصورة التفصيلية بدقة. تُظهر نماذج كشف الرؤية مهارات متميزة في التعرف على التفاصيل الدقيقة للصور، مما دفع الباحثين إلى استخدامها لتعزيز أداء MLLMs. إحدى الاستراتيجيات الفعّالة هي دمج معلومات الكشف على شكل نصوص، والتي أثبتت بساطتها وفعاليتها. ومع ذلك، تستخدم معظم الدراسات هذه الطريقة دون تدريب، ما يترك إمكانات التدريب التكيفي غير مستغلة إلى حد كبير. يمكن للتدريب التكيفي أن يُحدث تحسينًا كبيرًا في قدرة MLLMs على فهم المدخلات الفريدة، مع التخلص من المعلومات غير ذات الصلة. تتناول هذه الورقة السؤال الجوهري: كيف يؤثر التدريب على فهم MLLMs لمعلومات الكشف النصية المُدمجة؟ قمنا بتجريب منهجي لعدة نماذج ممثلة لتقييم تأثير استراتيجيات التدريب المجاني، وإعادة التدريب، والتحسين الدقيق (fine-tuning). كما قمنا بفحص تأثير التدريب على القدرات الأصلية لـ MLLMs، وقابلية استبدال نماذج الكشف. تشير نتائجنا إلى أن تحسين النموذج المُدرّب مسبقًا (pre-trained) باستخدام التدريب الدقيق لدمج معلومات الكشف النصية يؤدي إلى نتائج أفضل مقارنةً بأساليب التدريب المجاني وإعادة التدريب، مع تحسين الأداء بنسبة 6.71٪ عبر 10 معايير معروفة وشائعة. علاوةً على ذلك، يُمكن للتدريب الدقيق أن يمكّن MLLMs من الحفاظ على تحسينات الأداء حتى عند استبدال نماذج الكشف، مما يدل على تحسّن فهمها للبيانات النصية المُهيكلة. نُطلق رمزنا البرمجي لدعم الاستكشاف المستقبلي لاستراتيجيات الدمج الخاصة بنماذج كشف الرؤية وتعزيز القدرات متعددة الوسائط التفصيلية لـ MLLMs.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
من التدريب الحر إلى التكيف: رؤى تجريبية حول فهم نماذج LLMs متعددة الوسائط لمعلومات الكشف | مستندات | HyperAI