HyperAIHyperAI
منذ 12 أيام

كشف الانحراف التفاضلي الضمني يمكّن التحليل العميق المتعدد الوسائط المُحكَم

كشف الانحراف التفاضلي الضمني يمكّن التحليل العميق المتعدد الوسائط المُحكَم
الملخص

غالبًا ما تكون نماذج الشبكات العميقة صريحة تمامًا أثناء التدريب والاستدلال على بيانات غير مرئية. عند استخدام هذه النماذج للتنبؤ، قد تفشل في التقاط المعلومات الدلالية المهمة والاعتماديات الضمنية داخل المجموعات البيانات. أظهرت التطورات الحديثة أن دمج وسائط متعددة في بيئات الرؤية واللغة على نطاق واسع يمكن أن يحسن من أداء الفهم والقدرة على التعميم. ومع ذلك، مع زيادة حجم النموذج، تصبح عملية التخصيص (fine-tuning) والنشر مكلفة من حيث الحوسبة، حتى بالنسبة لعدد قليل من المهام التالية (downstream tasks). علاوة على ذلك، لا يزال غير واضح كيفية تحديد المعرفة الوظيفية أو المعرفة السابقة بالنسبة للنماذج بطريقة تتماشى مع التغذية المرتدة (backpropagation)، خاصة في البيئات الكبيرة والضوضائية. لمعالجة هذه التحديات، نقترح بديلًا مبسطًا يعتمد على دمج الميزات المستمدة من الشبكات العميقة المُدرَّبة مسبقًا مع معرفة دلالية صريحة متاحة بشكل مجاني. ولإزالة المعرفة الصريحة غير ذات الصلة التي لا تتماشى جيدًا مع الصور، نُقدِّم طبقة كشف تلقائي غير صريح (Implicit Differentiable Out-of-Distribution, OOD) مُميزة. تعتمد هذه الطبقة على حل مشكلة نقاط الثبات (fixed points) لدالة قابلة للتفاضل، واستخدام آخر تكرار من حلّال نقاط الثبات لنقل التغذية المرتدة. في الممارسة العملية، طبّقنا نموذجنا على عدة مهام تالية في مجالات الرؤية واللغة، منها الإجابة على الأسئلة البصرية (Visual Question Answering)، والاستدلال البصري (Visual Reasoning)، واسترجاع الصور والنصوص (Image-Text Retrieval) على مجموعات بيانات مختلفة. تُظهر تجاربنا أنه من الممكن تصميم نماذج تُحقق أداءً مماثلًا للنتائج الرائدة (state-of-the-art) ولكن باستخدام عدد أقل بكثير من العينات ووقت تدريب أقل بكثير. تتوفر نماذجنا والكود الخاص بنا هنا: https://github.com/ellenzhuwang/implicit_vkood

كشف الانحراف التفاضلي الضمني يمكّن التحليل العميق المتعدد الوسائط المُحكَم | أحدث الأوراق البحثية | HyperAI