HyperAIHyperAI
منذ 16 أيام

التعلم التمثيلي الصوتي البصري ذاتي التوجيه للبيانات الاستشعار عن بعد

Konrad Heidler, Lichao Mou, Di Hu, Pu Jin, Guangyao Li, Chuang Gan, Ji-Rong Wen, Xiao Xiang Zhu
التعلم التمثيلي الصوتي البصري ذاتي التوجيه للبيانات الاستشعار عن بعد
الملخص

تُستخدم العديد من النماذج الحالية في التعلم العميق شبكات أساسية مُدرَّبة مسبقًا على مجموعات بيانات كبيرة مثل ImageNet، ثم تُعدَّل دقةً لإنجاز مهمة معينة. في مجال الاستشعار عن بعد، يُعَقِّد نقص مجموعات بيانات مُANNOTATED كبيرة مماثلة، إلى جانب تنوع كبير في منصات الاستشعار، تطورًا مشابهًا. ولمساهمة في توافر شبكات أساسية مُدرَّبة مسبقًا في مجال الاستشعار عن بعد، نقترح منهجًا ذاتي التدريب (self-supervised) لتدريب الشبكات العصبية العميقة. ونُنفَّذ هذا التدريب بشكل كامل دون استخدام علامات (label-free)، باستغلال العلاقة بين تسجيلات صوتية مُتَوَقَّعة جغرافيًا وصور الاستشعار عن بعد، مما يُلغِي الحاجة إلى التصنيف اليدوي المُرهق. ولتحقيق ذلك، نقدِّم مجموعة بيانات تُسمَّى SoundingEarth، التي تتضمن صورًا جوية مُتَوَقَّعة جغرافيًا وعينات صوتية من مختلف أنحاء العالم. وباستخدام هذه المجموعة، نُدرِّب نماذج ResNet لتحويل العينات من كلا النوعين (الصورة والصوت) إلى فضاء تضمين مشترك، مما يشجع النماذج على فهم الخصائص الأساسية للمنظر التي تؤثر في المظهر البصري والصوتي معًا. ولتأكيد فائدة المنهج المقترح، نقيّم أداء نقل التعلم للوزن المُدرَّب مسبقًا مقارنةً بالوزن المُدرَّب بطرق أخرى. وعند تعديل النماذج على عدد من مجموعات البيانات المستخدمة شائعًا في الاستشعار عن بعد، نُظهر أن منهجنا يتفوّق على الاستراتيجيات الحالية لتدريب المُقدِّمات (pre-training) في صور الاستشعار عن بعد. وستكون المجموعة، والكود، ووزن النماذج المُدرَّبة مسبقًا متاحة عبر الرابط: https://github.com/khdlr/SoundingEarth.