RTIC: التعلم المتبقِّي للتركيب النصي والصوري باستخدام شبكة ت(Convolutional Network) الرسومية

في هذه الورقة، ندرس التعلم التكويني للصور والنصوص بهدف استرجاع الصور. يتم تقديم الاستعلام على شكل صورة ونص يصف التعديلات المطلوبة على الصورة؛ والهدف هو استرجاع الصورة المستهدفة التي تحقق التعديلات المحددة وتتشابه مع الصورة الاستعلامية من خلال تكوين المعلومات المتوفرة في كلا الموداليتين: النصية والصورية. ولحل هذه المشكلة، نقترح معمارية جديدة مصممة خصيصًا لمهام التكوين الصوري-النصي، ونُظهر أن البنية المقترحة قادرة على تمثيل الفروق بين الصورة المصدرية والصورة المستهدفة بشكل فعّال، مع الاعتماد على السياق النصي. علاوة على ذلك، نقدّم تقنية تدريب مشتركة جديدة تعتمد على الشبكة التوليفية الرسومية (Graph Convolutional Network)، وهي قابلة للتطبيق بشكل عام على أي طريقة تكوين موجودة بطريقة "التشغيل الفوري" (plug-and-play). وجدنا أن التقنية المقترحة تحسّن الأداء بشكل متسق، وتحقق أفضل النتائج على مختلف المعايير (benchmarks). ولتجنب النتائج التجريبية المضللة الناتجة عن معايير تدريب بسيطة وغير ملائمة، قمنا بإعادة إنتاج جميع الطرق الأساسية (baselines) بشكل منفصل، وتدريبا النماذج ضمن بيئة تدريب موحدة. نتوقع أن يُقلّل هذا النهج من التأثيرات السلبية الناتجة عن العناصر غير ذات الصلة، ويُركّز على قدرة وحدة التكوين الصوري-النصي. كما حققنا أفضل أداء ممكن دون قيود على بيئة التدريب، مما يدل على تفوق طريقتنا، خصوصًا مع الأخذ بعين الاعتبار الفوائد الناتجة عن ضبط المعايير التدريبية. تم إتاحة الشفرة المصدرية، بما في ذلك جميع الطرق الأساسية، عبر الرابط التالي: https://github.com/nashory/rtic-gcn-pytorch.