HyperAIHyperAI
منذ 2 أشهر

من الرؤية إلى الصوت وما بeyond: نموذج موحد لتمثيل وإنشاء الصوت والصورة

Su, Kun ; Liu, Xiulong ; Shlizerman, Eli
من الرؤية إلى الصوت وما بeyond: نموذج موحد لتمثيل وإنشاء الصوت والصورة
الملخص

تشمل الفيديو البيانات البصرية والصوتية، مما يخلق تجربة حسية غنية حيث تكمل هذه الوسيلتان بعضهما البعض. ولذلك، تعتبر الفيديوهات وسيلة إعلامية قيمة لدراسة التفاعل بين العناصر الصوتية والبصرية. ركزت الدراسات السابقة في مجال الوسائط الصوتية-البصرية بشكل أساسي على إما تعلم تمثيل الوسائط الصوتية-البصرية أو نمذجة توليد وسيلة مشروطة بالوسيلة الأخرى، مما أدى إلى وجود فجوة بين هذين الفرعين. لم يتم تطوير إطار موحد يقوم بتعلم التمثيل وتوليد الوسائط حتى الآن. في هذا العمل، نقدم إطارًا جديدًا يُسمى "الرؤية إلى الصوت وما بeyond" (VAB) بهدف جسر هذه الفجوة بين تعلم تمثيل الوسائط الصوتية-البصرية وتوليد الرؤية إلى الصوت.النهج الأساسي لـ VAB هو أنه بدلاً من العمل مع الإطارات الفيديوية الخام والبيانات الصوتية، يقوم VAB بتعلم التمثيل ونمذجة التوليد ضمن فضاءات متأصلة (Latent Spaces). وبشكل خاص، يستخدم VAB محول صوتي مدرب مسبقًا ومحودِّب صور للحصول على رموز صوتية وميزات بصرية، على التوالي. ثم يقوم بأداء مهمة التدريب المسبق لتوقع الرموز الصوتية المقنعة (Masked Audio Token Prediction) المشروطة بالميزات البصرية. يتيح هذا الأسلوب الاستراتيجي للنموذج الانخراط في التعلم السياقي وتوليد الفيديو-الصوت بشكل متزامن.بعد مرحلة التدريب المسبق، يستخدم VAB أسلوب فك الشفرة التكراري (Iterative Decoding) لتوليد الرموز الصوتية بسرعة مشروطة بالميزات البصرية. بما أن VAB هو نموذج موحد، يمكن ضبط نواته الدقيقة (Backbone) لمهام مختلفة لأسفل الوسائط الصوتية-البصرية. تظهر تجاربنا كفاءة VAB في إنتاج صوت عالي الجودة من الفيديو وقدرته على اكتساب ميزات صوتية-بصرية دلالية، مما يؤدي إلى نتائج تنافسية في استرجاع وتصنيف الوسائط الصوتية-البصرية.

من الرؤية إلى الصوت وما بeyond: نموذج موحد لتمثيل وإنشاء الصوت والصورة | أحدث الأوراق البحثية | HyperAI