تعلم تكوين الهياكل الشجرية الديناميكية للسياقات البصرية

نقترح تكوين هياكل شجرية ديناميكية تضع الأشياء في الصورة ضمن سياق بصري، مما يساعد في مهام الاستدلال البصري مثل إنشاء رسم بياني للمشهد وطرح وإجابة الأسئلة البصرية. يتميز نموذج السياق البصري الشجري الذي أطلقنا عليه اسم VCTree بميزيْن أساسيْن على النماذج الهيكلية للأجسام الموجودة حالياً، بما في ذلك السلسلات والرسوم البيانية الكاملة الاتصال: 1) الشجرة الثنائية الفعالة والمعبرة ترمّز العلاقات المتوازية/التراتبية الطبيعية بين الأجسام، على سبيل المثال "الملابس" و"السروال" عادة ما يظهران معًا ويتعلقان بـ "الشخص"؛ 2) الهيكل الديناميكي يتغير من صورة إلى أخرى ومن مهمة إلى أخرى، مما يتيح التبادل الرسالي الأكثر تحديدًا حسب المحتوى/المهمة بين الأجسام. لبناء VCTree، نصمم دالة نقاط تحسب صلاحية الزوج من الأجسام حسب المهمة، والشجرة هي الإصدار الثنائي للشجرة الممتدة القصوى من مصفوفة النقاط. ثم يتم ترميز السياقات البصرية بواسطة TreeLSTM ثنائي الاتجاه وتفسيرها بواسطة نماذج خاصة بالمهمة. لقد طوّرنا إجراءً هجينًا للتعلم يدمج التعلم تحت إشراف مهمات النهاية والتعلم التعزيزي لهيكل الشجرة، حيث تكون نتيجة تقييم الأول خادمًا ذاتيًا لاستكشاف هيكل الثاني. أظهرت النتائج التجريبية على مقعدين قياسيين يتطلبان الاستدلال على السياقات: Visual Genome لإنشاء رسم بياني للمشهد وVQA2.0 لطرح وإجابة الأسئلة البصرية أن VCTree يتفوق على أفضل النتائج الحالية اثناء اكتشافه لهياكل سياق بصري قابل للتفسير.