منذ 8 أشهر

الملخص

رغم القدرات اللافتة للنماذج الكبيرة متعددة الوسائط (MLLMs) في دمج الوسائط النصية والبصرية، تبقى هناك تحديات في فهم عناصر الصورة التفصيلية بدقة. تُظهر نماذج كشف الرؤية مهارات متميزة في التعرف على التفاصيل الدقيقة للصور، مما دفع الباحثين إلى استخدامها لتعزيز أداء MLLMs. إحدى الاستراتيجيات الفعّالة هي دمج معلومات الكشف على شكل نصوص، والتي أثبتت بساطتها وفعاليتها. ومع ذلك، تستخدم معظم الدراسات هذه الطريقة دون تدريب، ما يترك إمكانات التدريب التكيفي غير مستغلة إلى حد كبير. يمكن للتدريب التكيفي أن يُحدث تحسينًا كبيرًا في قدرة MLLMs على فهم المدخلات الفريدة، مع التخلص من المعلومات غير ذات الصلة. تتناول هذه الورقة السؤال الجوهري: كيف يؤثر التدريب على فهم MLLMs لمعلومات الكشف النصية المُدمجة؟ قمنا بتجريب منهجي لعدة نماذج ممثلة لتقييم تأثير استراتيجيات التدريب المجاني، وإعادة التدريب، والتحسين الدقيق (fine-tuning). كما قمنا بفحص تأثير التدريب على القدرات الأصلية لـ MLLMs، وقابلية استبدال نماذج الكشف. تشير نتائجنا إلى أن تحسين النموذج المُدرّب مسبقًا (pre-trained) باستخدام التدريب الدقيق لدمج معلومات الكشف النصية يؤدي إلى نتائج أفضل مقارنةً بأساليب التدريب المجاني وإعادة التدريب، مع تحسين الأداء بنسبة 6.71٪ عبر 10 معايير معروفة وشائعة. علاوةً على ذلك، يُمكن للتدريب الدقيق أن يمكّن MLLMs من الحفاظ على تحسينات الأداء حتى عند استبدال نماذج الكشف، مما يدل على تحسّن فهمها للبيانات النصية المُهيكلة. نُطلق رمزنا البرمجي لدعم الاستكشاف المستقبلي لاستراتيجيات الدمج الخاصة بنماذج كشف الرؤية وتعزيز القدرات متعددة الوسائط التفصيلية لـ MLLMs.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

من التدريب الحر إلى التكيف: رؤى تجريبية حول فهم نماذج LLMs متعددة الوسائط لمعلومات الكشف

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

من التدريب الحر إلى التكيف: رؤى تجريبية حول فهم نماذج LLMs متعددة الوسائط لمعلومات الكشف

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

من التدريب الحر إلى التكيف: رؤى تجريبية حول فهم نماذج LLMs متعددة الوسائط لمعلومات الكشف

Qirui Jiao Daoyuan Chen Yilun Huang Yaliang Li Ying Shen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters