HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 20 أيام

توسيع التمثيل متعدد الوسائط المتمحور حول اللغة

Chenghao Xiao Hou Pong Chan Hao Zhang Weiwen Xu Mahani Aljunied Yu Rong

توسيع التمثيل متعدد الوسائط المتمحور حول اللغة

الملخص

أظهرت الطرق الحديثة لتمثيل البيانات متعددة الوسائط التي تعتمد على نماذج لغة كبيرة متعددة الوسائط (MLLMs) التي تم تدريبها بدقة باستخدام التعلم التبايني (CL) نتائج واعدة، إلا أن الأسباب الكامنة وراء تفوقها ما زالت غير مُستكشفة بشكل كافٍ. يُقدّم هذا العمل حجة تُشير إلى أن أحد المزايا الجوهرية لطرق MLLM تكمن في التوافيق الصامت بين الوسائط التي تُحقَّق أثناء التدريب التوليدي، حيث يتعلم معالج اللغة الاستفادة من الإشارات متعددة الوسائط ضمن فضاء تمثيلي مشترك لإنتاج مخرجات أحادية الوسائط. ومن خلال تحليل البنية التماثلية للانزياح (anisotropy) وهيكل التشابه النواة (kernel similarity)، نؤكد تجريبيًا أن التوافيق الخفية تظهر داخل تمثيلات MLLM، مما يتيح للتعلم التبايني أن يُؤدي دور مرحلة تحسين خفيفة الوزن. بالاستناد إلى هذه الرؤية، نقترح إطارًا جديدًا يُسمى LCO-Emb (تمثيل متعدد الوسائط متمحور حول اللغة)، والذي يُظهر كفاءة عالية في تجارب واسعة النطاق عبر مجموعة متنوعة من الهياكل الأساسية (backbones) والاختبارات (benchmarks)، ويحقق أداءً متقدمًا على مستوى الدولة في جميع الوسائط. بالإضافة إلى ذلك، نحدد قانونًا يُسمى "قانون التوسع التمثيلي-الإنتاجي" (GRSL)، الذي يُظهر أن قدرات التمثيل التي تُكتسب من خلال التحسين التبايني تزداد بشكل إيجابي مع قدرات النموذج التوليدية. ويدل هذا على أن تحسين القدرات التوليدية يُعد نموذجًا فعّالًا لتعزيز جودة التمثيل. نقدم تفسيرًا نظريًا لقانون GRSL، والذي يربط رسمًا رياضيًا جودة التوليد في MLLM بالحد الأقصى الممكن لجودة التمثيل، ونُختبر هذا القانون في مهمة صعبة وذات موارد محدودة تتعلق باسترجاع الوثائق البصرية، حيث نُظهر أن التدريب التوليدي المستمر قبل التعلم التبايني يمكن أن يعزز بشكل إضافي من إمكانات قدرة النموذج على التمثيل. تُتاح الشيفرات البرمجية، والنموذج، والموارد عبر الرابط التالي: https://github.com/LCO-Embedding/LCO-Embedding.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
توسيع التمثيل متعدد الوسائط المتمحور حول اللغة | الأوراق البحثية | HyperAI