HyperAIHyperAI
منذ 2 أشهر

UAVM: نحو توحيد النماذج الصوتية والبصرية

Yuan Gong; Alexander H. Liu; Andrew Rouditchenko; James Glass
UAVM: نحو توحيد النماذج الصوتية والبصرية
الملخص

النماذج السمعية-البصرية التقليدية لديها فروع سمعية وبصرية مستقلة. في هذا البحث، نقوم بتوحيد الفرعين السمعي والبصري من خلال تصميم نموذج سمعي-بصري موحد (UAVM). يحقق النموذج السمعي-البصري الموحد دقة تصنيف أحداث سمعية-بصرية جديدة تبلغ 65.8% على مجموعة بيانات VGGSound. بشكل أكثر إثارة للاهتمام، وجدنا أيضًا بعض الخصائص المثيرة للدهشة لنموذج UAVM والتي لا تمتلكها النماذج المستقلة عن الوسائط المتعددة.

UAVM: نحو توحيد النماذج الصوتية والبصرية | أحدث الأوراق البحثية | HyperAI