HyperAIHyperAI
منذ 17 أيام

إعادة النظر في تجميع السياق لقصّ الصور

Qinglin Liu, Xiaoqian Lv, Quanling Meng, Zonglin Li, Xiangyuan Lan, Shuo Yang, Shengping Zhang, Liqiang Nie
إعادة النظر في تجميع السياق لقصّ الصور
الملخص

تُركّز الدراسات التقليدية على أهمية معلومات السياق في تحسين أداء عملية الاستخلاص (matting). ونتيجة لذلك، تسعى الطرق القائمة على التعلم العميق لتصميم وحدات تجميع السياق القائمة على التجميع (pooling) أو الترابط (affinity) لتحقيق نتائج متفوّقة. ومع ذلك، فإن هذه الوحدات لا تستطيع التعامل بشكل جيد مع تغير حجم السياق الناتج عن الفرق في حجم الصور أثناء التدريب والاختبار، مما يؤدي إلى تدهور أداء الاستخلاص. في هذه الورقة، نعيد النظر في آليات تجميع السياق في الشبكات المستخدمة في الاستخلاص، ونكتشف أن شبكة مشفرة-مُفكّكة أساسية، دون أي وحدات لجمع السياق، قادرة في الواقع على تعلّم تجميع سياقي أكثر شمولاً، مما يتيح تحقيق أداء استخلاص أعلى مقارنة بالطرق الحالية. استنادًا إلى هذه الملاحظة، نقدّم AEMatter، وهي شبكة استخلاص بسيطة لكنها فعّالة جدًا. تعتمد AEMatter على هيكل أساسي من نوع Hybrid-Transformer يحتوي على كتل تعلّم محوري مُحسّنة للملامح (AEAL) لبناء شبكة قوية في قدرتها على تجميع السياق. علاوةً على ذلك، تستخدم AEMatter استراتيجية تدريب باستخدام صور كبيرة لمساعدة الشبكة على تعلّم تجميع السياق من البيانات. وقد أظهرت التجارب الواسعة على خمسة مجموعات بيانات شهيرة لعملية الاستخلاص أن AEMatter تتفوّق على أحدث الطرق في هذا المجال بمقدار كبير.