HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم تمثيلات ثلاثية الأبعاد للخريطة الصوتية بدون تدريب مسبق

Subash Khanal Srikumar Sastry Aayush Dhakal Nathan Jacobs

الملخص

نركّز على مهمة رسم المشهد الصوتي، والتي تتمثل في التنبؤ بأصوات محتملة أكثر احتمالاً أن تُسمع في موقع جغرافي معين. نستخدم نماذج حديثة من أحدث النماذج المتطورة لترميز الصوت المرتبط بموقع جغرافي، ووصفًا نصيًا للصوت، وصورة من الأعلى لموقع التقاط الصوت، باستخدام التدريب التمييزي المسبق. النتيجة النهائية هي فضاء تضمين مشترك لثلاثة وسائط، مما يمكّن من بناء خرائط المشهد الصوتي لأي منطقة جغرافية استنادًا إلى استفسارات نصية أو صوتية. باستخدام مجموعة بيانات SoundingEarth، نجد أن نهجنا يتفوّق بشكل كبير على النموذج الحالي الأفضل (SOTA)، حيث يرتفع مؤشر Recall@100 من الصورة إلى الصوت من 0.256 إلى 0.450. يمكن الوصول إلى الكود الخاص بنا عبر الرابط التالي: https://github.com/mvrl/geoclap.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp