منذ 15 أيام
تعلم تمثيلات ثلاثية الأبعاد للخريطة الصوتية بدون تدريب مسبق
Subash Khanal, Srikumar Sastry, Aayush Dhakal, Nathan Jacobs

الملخص
نركّز على مهمة رسم المشهد الصوتي، والتي تتمثل في التنبؤ بأصوات محتملة أكثر احتمالاً أن تُسمع في موقع جغرافي معين. نستخدم نماذج حديثة من أحدث النماذج المتطورة لترميز الصوت المرتبط بموقع جغرافي، ووصفًا نصيًا للصوت، وصورة من الأعلى لموقع التقاط الصوت، باستخدام التدريب التمييزي المسبق. النتيجة النهائية هي فضاء تضمين مشترك لثلاثة وسائط، مما يمكّن من بناء خرائط المشهد الصوتي لأي منطقة جغرافية استنادًا إلى استفسارات نصية أو صوتية. باستخدام مجموعة بيانات SoundingEarth، نجد أن نهجنا يتفوّق بشكل كبير على النموذج الحالي الأفضل (SOTA)، حيث يرتفع مؤشر Recall@100 من الصورة إلى الصوت من 0.256 إلى 0.450. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/mvrl/geoclap.