Command Palette
Search for a command to run...
FunCineForge: مجموعة أدوات بيانات موحدة ونموذج للترجمة الصوتية للأفلام دون أمثلة في مشاهد سينمائية متنوعة
FunCineForge: مجموعة أدوات بيانات موحدة ونموذج للترجمة الصوتية للأفلام دون أمثلة في مشاهد سينمائية متنوعة
Jiaxuan Liu Yang Xiang Han Zhao Xiangang Li Zhenhua Ling
الملخص
يُعدّ دوبلاج الأفلام مهمةً تركيبية للصوت من نصوص مكتوبة، مُشترطةً بمشاهد الفيديو، وتتطلب تزامنًا دقيقًا للشفاه، ونقلًا أمينًا للنبرة الصوتية، بالإضافة إلى نمذجة سليمة لهوية الشخصيات ومشاعرها. غير أن الأساليب القائمة تواجه قيودًا رئيسية اثنتين: (1) محدودية نطاق مجموعات البيانات متعددة الوسائط عالية الجودة للدوبلاج، والتي تعاني من معدلات خطأ عالية في التعرف على الكلام، وتفتقر إلى إشارات توضيحية (annotations) شاملة، وتعتمد على وضع العلامات يدويًا بتكلفة باهظة، كما أنها تقتصر على مشاهد الأحاديث المنفردة، مما يعيق التدريب الفعال للنماذج؛ (2) اعتماد نماذج الدوبلاج الحالية حصريًا على منطقة الشفاه لتعلم التوافق بين الصوت والصورة، مما يحدّ من قابليتها للتطبيق في مشاهد سينمائية حية معقدة، ويُظهر أداءً دون المستوى الأمثل في تزامن الشفاه، وجودة الصوت، والتعبير العاطفي.لمعالجة هذه التحديات، نقترح FunCineForge، وهو يتألف من خط إنتاج متكامل (end-to-end production pipeline) لبناء مجموعات بيانات دوبلاج واسعة النطاق، ونموذج دوبلاج قائم على MLLM مصمم خصيصًا لمختلف المشاهد السينمائية. باستخدام هذا الخط الإنتاجي، قمنا ببناء أول مجموعة بيانات للدوبلاج في المسلسلات التلفزيونية الصينية، مزوّدة بإشارات توضيحية غنية، وأثبتنا جودة هذه البيانات العالية. وتُظهر التجارب التي شملت مشاهد الأحاديث المنفردة، والسرد، والحوار، والسيناريوهات متعددة المتحدثين، أن نموذج الدوبلاج المقترح يتفوق بشكل ثابت على أحدث الأساليب (SOTA) من حيث جودة الصوت، وتزامن الشفاه، ونقل النبرة الصوتية، والالتزام بالتعليمات (instruction following).