HyperAIHyperAI
منذ 2 أشهر

V2A-Mapper: حل خفيف لتحويل الرؤية إلى الصوت من خلال ربط النماذج الأساسية

Wang, Heng ; Ma, Jianbo ; Pascual, Santiago ; Cartwright, Richard ; Cai, Weidong
V2A-Mapper: حل خفيف لتحويل الرؤية إلى الصوت من خلال ربط النماذج الأساسية
الملخص

بناء أنظمة الذكاء الاصطناعي (AI) على مجموعة من نماذج الأساس (FMs) يصبح نموذجاً جديداً في بحوث الذكاء الاصطناعي. يمكن تكييف ونقل قدرات التمثيل والتكوين التي تعلمها هذه النماذج من كميات ضخمة من البيانات بسهولة إلى مجموعة واسعة من المهام الثانوية دون الحاجة إلى التدريب الإضافي من الصفر. ومع ذلك، فإن الاستفادة من نماذج الأساس في التوليد عبر الأنظمة الحسية لا تزال محدودة عندما يتعلق الأمر بالنمط الصوتي. من ناحية أخرى، يعتبر إنتاج الصوت ذات الصلة الدلالية بشكل آلي من المدخلات البصرية مشكلة مهمة في دراسات التوليد عبر الأنظمة الحسية. لحل هذه المشكلة المعروفة باسم التوليد البصري-الصوتي (V2A)، تميل الأساليب الموجودة إلى تصميم وإنشاء أنظمة معقدة من الصفر باستخدام قواعد بيانات متوسطة الحجم. في هذا البحث، نقترح حلاً خفيف الوزن لهذه المشكلة عن طريق الاستفادة من نماذج الأساس، وبشكل خاص CLIP، CLAP، وAudioLDM. أولاً، ندرس الفجوة بين المجال الضمني لنموذجي CLIP البصري وCLAP السمعي. ثم نقترح آلية رسم بسيطة ولكن فعالة (V2A-Mapper) لسد هذه الفجوة عن طريق ترجمة المدخل البصري بين فضاءات CLIP وCLAP. بناءً على الانغراس المترجم لـ CLAP، يتم استخدام النموذج الجاهز لتوليد الصوت AudioLDM لإنتاج صوت عالي الدقة ومتماشٍ بصرياً. مقارنة بالأساليب السابقة، يتطلب طرحنا فقط تدريباً سريعًا للرسم V2A-Mapper. كما نقوم بتحليل شامل وإجراء العديد من التجارب حول اختيار الرسم V2A-Mapper ونظهر أن الرسم التوليدي أفضل في الدقة والتنوع (FD) بينما الرسم الانحداري أفضل قليلاً في الصلة الدلالية (CS). كلتا التقييمات الموضوعية وغير الموضوعية على قاعدتين للبيانات V2A تثبتان تفوق طرحنا المقترح مقارنة بالأساليب الأكثر حداثة حالية - حيث يتم التدريب باستخدام 86% أقل من المعلمات ولكنه يحقق تحسينًا بنسبة 53% و19% في FD وCS على التوالي.

V2A-Mapper: حل خفيف لتحويل الرؤية إلى الصوت من خلال ربط النماذج الأساسية | أحدث الأوراق البحثية | HyperAI