Command Palette
Search for a command to run...
UAVM: نحو توحيد النماذج الصوتية والبصرية
UAVM: نحو توحيد النماذج الصوتية والبصرية
Yuan Gong, Member, IEEE, Alexander H. Liu, Andrew Rouditchenko, and James Glass, Fellow, IEEE
الملخص
النماذج السمعية-البصرية التقليدية لديها فروع سمعية وبصرية مستقلة. في هذا البحث، نقوم بتوحيد الفرعين السمعي والبصري من خلال تصميم نموذج سمعي-بصري موحد (UAVM). يحقق النموذج السمعي-البصري الموحد دقة تصنيف أحداث سمعية-بصرية جديدة تبلغ 65.8% على مجموعة بيانات VGGSound. بشكل أكثر إثارة للاهتمام، وجدنا أيضًا بعض الخصائص المثيرة للدهشة لنموذج UAVM والتي لا تمتلكها النماذج المستقلة عن الوسائط المتعددة.