HyperAIHyperAI
منذ 8 أيام

VALOR: نموذج تدريب مسبق متعدد الحواس بصري-صوتي-لغوي وقاعدة بيانات

Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang
VALOR: نموذج تدريب مسبق متعدد الحواس بصري-صوتي-لغوي وقاعدة بيانات
الملخص

في هذه الورقة، نقترح نموذجًا للتدريب المسبق متعدد الوسائط يُسمى "VALOR" (نماذج الرؤية والصوت واللغة متعددة المُشاهدات) لفهم وإنشاء المحتوى متعدد الوسائط. على عكس النماذج الشائعة للتدريب المسبق بين الرؤية واللغة، يُعالج نموذج VALOR العلاقات بين الرؤية والصوت واللغة بشكل موحد ومتسلسل من البداية إلى النهاية. يحتوي النموذج على ثلاثة مشفرات منفصلة لتمثيل كل وسائط فردية، بالإضافة إلى مشفرة واحدة لإنجاز إنشاء نصوص متعددة الوسائط شرطية. قمنا بتصميم مهام مسبقة (pretext tasks) اثنتين لتدريب نموذج VALOR، وهما: "المحاذاة المجمعة متعددة الوسائط" (MGA) و"الكتابة التوضيحية المجمعة متعددة الوسائط" (MGC). تُحوّل MGA الرؤية واللغة والصوت إلى فضاء مشترك موحد، مما يُنشئ في آنٍ واحد محاذاة بين الرؤية واللغة، والصوت واللغة، والصوت والرؤية واللغة. أما MGC، فهي تتعلم كيفية إنشاء رموز نصية ضمن ظروف الرؤية، أو الصوت، أو كليهما معًا. ولتعزيز أبحاث التدريب المسبق متعدد الوسائط (الرؤية والصوت واللغة)، قمنا ببناء مجموعة بيانات كبيرة وعالية الجودة مكونة من ثلاث وسائط تُسمى VALOR-1M، والتي تحتوي على مليون فيديو صوتي مُعلّق بتعليقات صوتية ومرئية مُعدّة يدويًا من قبل البشر. أظهرت التجارب الواسعة أن VALOR قادر على استيعاب علاقات متعددة الوسائط القوية، وتوسيع نطاق تطبيقاته على مهام لاحقة متنوعة (مثل الاسترجاع، والكتابة التوضيحية، والإجابة على الأسئلة)، مع مدخلات وسائط مختلفة (مثل الرؤية واللغة، أو الصوت واللغة، أو الصوت والرؤية واللغة). وحققت VALOR أداءً جديدًا في مستوى الحد الأقصى من الأداء على سلسلة من المعايير العامة المفتوحة ذات الصلة بتحويل الوسائط. يمكن الوصول إلى الكود والبيانات من خلال الصفحة الرسمية للمشروع: https://casia-iva-group.github.io/projects/VALOR.