HyperAIHyperAI
منذ 15 أيام

استشعار عن بعد فعّال من خلال التعلم الناقل الموحّد ومحاذاة الوسائط

Tengjun Huang
استشعار عن بعد فعّال من خلال التعلم الناقل الموحّد ومحاذاة الوسائط
الملخص

مع صعود التدريب المسبق البصري واللغوي (VLP)، أصبحت مجموعة متزايدة من المهام التطبيقية تتبّع نموذج التدريب المسبق المتبّع بضبط دقيق (fine-tuning). وعلى الرغم من أن هذا النموذج أظهر إمكانات كبيرة في العديد من المهام متعددة الوسائط، فإن تطبيقه في مجال الاستشعار عن بعد يواجه بعض العقبات. وبشكل خاص، يؤدي اتجاه التمثيلات ذات الوسائط الواحدة إلى التجمع معًا إلى تعطيل التعلم الناقل الفعّال. ولحل هذه المشكلة، نُعيد النظر في هدف التعلم الناقل متعدد الوسائط للمهام التطبيقية من منظور موحد، ونعيد تفكير عملية التحسين بناءً على ثلاث أهداف مختلفة. نُقدّم طريقة تُسمّى "التعلم الناقل المتناغم والمحاذاة بين الوسائط (HarMA)"، وهي طريقة تحقق في آن واحد قيود المهمة، والمحاذاة بين الوسائط، والمحاذاة الموحّدة داخل الوسائط الواحدة، مع تقليل حمل التدريب من خلال ضبط دقيق فعّال من حيث الموارد. وتميّزًا بالجودة، تحقّق HarMA أداءً من الدرجة الأولى في مهام الاسترجاع متعددة الوسائط الشائعة في مجال الاستشعار عن بعد، دون الحاجة إلى بيانات خارجية لتدريب النموذج. تُظهر تجاربنا أن HarMA تحقق أداءً تنافسيًا وحتى أفضل من النماذج التي تُضبط بالكامل، مع عدد ضئيل جدًا من المعلمات القابلة للتعديل. وبفضل بساطتها، يمكن دمج HarMA في معظم النماذج المسبقة التدريب متعددة الوسائط الحالية. ونأمل أن تسهم هذه الطريقة في تسهيل تطبيق النماذج الكبيرة على نطاق واسع من المهام التطبيقية، مع تقليل كبير في استهلاك الموارد. يمكن الوصول إلى الكود عبر الرابط: https://github.com/seekerhuang/HarMA.