HyperAIHyperAI

Command Palette

Search for a command to run...

LAFITE: نحو التدريب الخالي من اللغة لتقنيات تحويل النص إلى صورة

Yufan Zhou Ruiyi Zhang Changyou Chen Chunyuan Li Chris Tensmeyer Tong Yu Jiuxiang Gu Jinhui Xu Tong Sun

الملخص

من بين التحديات الرئيسية في تدريب نماذج التوليف المرئي من النص هو الحاجة إلى عدد كبير من الأزواج الصورية-النصية ذات الجودة العالية. بينما تكون عينات الصور غالبًا متاحة بسهولة، فإن الوصف النصي المصاحب يتطلب عادةً تسمية دقيقة من قبل البشر، وهو أمر يستهلك الكثير من الوقت والتكلفة. في هذا البحث، نقترح أول عمل لتدريب نماذج التوليف المرئي من النص دون استخدام أي بيانات نصية. تعتمد طريقتنا على الفضاء الدلالي متعدد الأوضاع المتناسق جيدًا لنموذج CLIP (النموذج المُعد مسبقًا القوي): يتم تخفيف متطلب التكييف النصي بسلاسة عبر إنتاج خصائص نصية من خصائص الصور. تم إجراء تجارب واسعة لبيان فعالية الطريقة المقترحة. حققنا نتائج رائدة في مهام التوليف المرئي القياسية من النص. وبشكل مهم، يتفوق النموذج الخالي من اللغة المقترح على معظم النماذج الموجودة التي تم تدريبها باستخدام أزواج صورية-نصية كاملة. بالإضافة إلى ذلك، يمكن تطبيق طرقتنا في ضبط نماذج مُعدة مسبقًا، مما يوفر وقت التدريب وتكاليفه عند تدريب نماذج التوليف المرئي من النص. حقق نموذجنا المُعد مسبقًا نتائج تنافسية في التوليف المرئي الصفر للنص على مجموعة بيانات MS-COCO، مع أن حجمه وحجم البيانات المستخدمة في تدريبه لا يتجاوزان 1% تقريبًا من حجم وأحجام البيانات الخاصة بنموذج DALL-E الكبير الذي اقترحته الدراسات الحديثة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LAFITE: نحو التدريب الخالي من اللغة لتقنيات تحويل النص إلى صورة | مستندات | HyperAI