HyperAIHyperAI

Command Palette

Search for a command to run...

VISTA: تمثيل نصي مرئي للبحث متعدد الوسائط الشامل

Junjie Zhou Zheng Liu Shitao Xiao Bo Zhao Yongping Xiong

الملخص

يكتسب الاسترجاع متعدد الوسائط شعبية متزايدة في الممارسة العملية. ومع ذلك، فإن المحركات الحالية تتركز بشكل أساسي على النصوص، مما يفتقر إلى القدرة على معالجة المعلومات البصرية. وعلى الرغم من وجود نماذج متعددة الوسائط مثل CLIP، فإن الطرق الحالية محدودة بشدة في تمثيل البيانات النصية فقط أو الصورية فقط. في هذا العمل، نقدّم نموذج تضمين جديد يُسمى VISTA، مصممًا للاسترجاع متعدد الوسائط الشامل. يُعد هذا العمل مُساهمة تقنية في ثلاثة جوانب رئيسية. أولاً، نقدّم بنية مرنة تمدد نموذج النص القوي بقدرات فهم الصور من خلال إدخال تضمينات الرموز البصرية (visual token embeddings). ثانيًا، نطوّر استراتيجيتين لتكوين البيانات، تُنتج بيانات مركبة عالية الجودة من الصور والنصوص، مما يُسهل تدريب نموذج التضمين. ثالثًا، نقدّم خوارزمية تدريب متعددة المراحل: تبدأ بمحاذاة تضمينات الرموز البصرية مع نموذج التشفير النصي باستخدام كميات ضخمة من البيانات ذات التسمية الضعيفة، ثم تُطوّر القدرة على التمثيل متعدد الوسائط باستخدام البيانات المركبة المُولَّدة. في تجاربنا، حقق نموذج VISTA أداءً متفوقًا في مجموعة متنوعة من مهام الاسترجاع متعدد الوسائط، سواء في البيئات ذات "الصفر المُشغّل" (zero-shot) أو البيئات المُدرّبة بوضوح. يُتاح نموذجنا، وبياناتنا، وشفرة المصدر عبر الرابط: https://github.com/FlagOpen/FlagEmbedding.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp