الشبكة الرسمية الثنائية القائمة على التحويلات للاعتراف بالصور متعددة العلامات

التعرف المتزامن على عدة أشياء في صورة واحدة يظل مهمة صعبة، تشمل العديد من التحديات في مجال التعرف مثل مقياس الأشياء المختلف، المظهر غير المتسق، والعلاقات بين الفئات المربكة. تركز الجهود البحثية الحديثة بشكل أساسي على استخدام التكرارات الإحصائية للعلامات والتمثيل اللغوي للكلمات لتعزيز الدلالات الغامضة. بخلاف هذه البحوث، نقترح في هذا البحث إطارًا جديدًا للتعلم الثنائي للعلاقات يستند إلى تقنية Transformer، حيث يتم بناء العلاقات المكملة من خلال استكشاف جوانب ارتباطين، وهما الرسم البياني للعلاقة الهيكلية والرسم البياني للعلاقة الدلالية. يهدف الرسم البياني للعلاقة الهيكلية إلى التقاط الارتباطات طويلة المدى من سياق الأشياء من خلال تطوير هندسة معمارية مستندة إلى Transformer متعددة المقاييس. أما الرسم البياني للعلاقة الدلالية فيقوم بتقديم نموذج ديناميكي للمعاني الدلالية لأشياء الصورة مع قيود واضحة على الوعي الدلالي. بالإضافة إلى ذلك، ندمج أيضًا العلاقة الهيكلية التي تم تعلمها في الرسم البياني الدلالي، مما يتيح بناء رسم بياني مشترك للعلاقات لتحقيق تمثيلات أكثر ثباتًا. بفضل التعلم التعاوني لهذه الرسوم البيانية الثنائية الفعالة، حققت طريقتنا أحدث النتائج المتقدمة على معيارين شهيرين للتعرف متعدد العلامات، وهما مجموعة بيانات MS-COCO ومجموعة بيانات VOC 2007.