HyperAIHyperAI
منذ 2 أشهر

أخبر عما تسمع من ما ترى -- إنشاء صوت من فيديو عبر النص

Liu, Xiulong ; Su, Kun ; Shlizerman, Eli
أخبر عما تسمع من ما ترى -- إنشاء صوت من فيديو عبر النص
الملخص

محتوى المشاهد البصرية والصوتية متعدد الأوجه بحيث يمكن ربط الفيديو بعديد من الصوتيات والعكس صحيح. ولذلك، في مهمة توليد الصوت من الفيديو، من الضروري تقديم نهج تحكمي لضبط الصوت المُولد. رغم أن توليد الصوت من الفيديو هو مهمة توليدية معروفة جيدًا، فإن الأساليب الحالية تعاني من نقص في قابلية التحكم. في هذا العمل، نقترح VATT، وهو إطار متعدد الوسائط للإنتاج يأخذ الفيديو وحث نصي اختياري كمدخلات، ويُولد صوتًا ووصفًا نصيًا اختياريًا للصوت. يتمتع هذا الإطار بميزتين رئيسيتين: أولاً، يمكن تحسين وتوجيه عملية توليد الصوت من الفيديو عبر النص الذي يكمل سياق المعلومات البصرية، وثانيًا، يمكن للنموذج اقتراح ما يجب إنتاجه من صوت للفيديو عن طريق توليد عناوين صوتية. يتكون VATT من وحدتين أساسيتين: محول VATT (VATT Converter)، وهو نموذج لغوي كبير تم ضبطه بدقة للأوامر ويتضمن طبقة إسقاط تقوم بربط خصائص الفيديو بفضاء المتجهات الخاص بالنموذج اللغوي الكبير؛ ومولد صوت VATT (VATT Audio)، وهو متحول يقوم بتوليد رموز صوتية من الإطارات البصرية ومن حث النص الاختياري باستخدام الترميز المتوازي التكراري. يتم تحويل الرموز الصوتية إلى موجة صوتية بواسطة كوديك عصبي مُدرب مسبقًا. أظهرت التجارب أن VATT عند مقارنته بالأساليب الحالية لتوليد الصوت من الفيديو في المقاييس الموضوعية، يحقق أداءً تنافسيًا عندما لا يتم توفير عنوان الصوت. ومع وجود عنوان الصوت كحث، يحقق VATT أداءً أكثر دقة (أدنى درجة KLD وهي 1.41). بالإضافة إلى ذلك، أظهرت الدراسات الذاتية أن مولد صوت VATT قد تم اختياره كخيار مفضل للصوت المُولد مقارنة بالصوات التي تم إنتاجها بواسطة الأساليب الحالية. يتيح VATT إمكانية التحكم في توليد الصوت من الفيديو عبر النص وكذلك اقتراح حواجز نصية للفيديوهات عبر العناوين الصوتية، مما يفتح آفاقًا جديدة مثل توليد الصوت من الفيديو بإرشاد النص وإضافة العناوين الصوتية للفيديوهات.

أخبر عما تسمع من ما ترى -- إنشاء صوت من فيديو عبر النص | أحدث الأوراق البحثية | HyperAI