HyperAIHyperAI
منذ 2 أشهر

التعلم التعاوني المجموعاتي والانتباه الهجين المتراكم لتكوين رسم بياني مشهد خالي من التحيز

Xingning Dong; Tian Gan; Xuemeng Song; Jianlong Wu; Yuan Cheng; Liqiang Nie
التعلم التعاوني المجموعاتي والانتباه الهجين المتراكم لتكوين رسم بياني مشهد خالي من التحيز
الملخص

توليد الرسم البياني للمشهد (Scene Graph Generation)، والذي يتبع عادةً نموذج تشفير-فك التشفير (encoder-decoder pipeline)، يهدف إلى ترميز المحتويات البصرية داخل الصورة المعطاة أولاً، ثم فك تشفيرها إلى رسم بياني ملخص ومكثف. ومع ذلك، فإن الأساليب الحالية لتوليد الرسم البياني للمشهد (SGG) لا تأخذ في الاعتبار الاندماج غير الكافي بين الرؤية واللغة، كما أنها تفشل في تقديم معلومات دقيقة بسبب التنبؤات المنحازة للعلاقات، مما يجعل تطبيق SGG بعيدًا عن الواقع العملي. بهدف معالجة هذه المشكلات، نقدم في هذا البحث شبكة انتباه هجينة متراكمة (Stacked Hybrid-Attention network) جديدة، والتي تسهل التحسين داخل الأصناف (intra-modal refinement) وكذلك التفاعل بين الأصناف (inter-modal interaction)، لاستخدامها كمحلل (encoder). ثم نطور استراتيجية تعلم تعاوني بالمجموعات (Group Collaborative Learning) مبتكرة لتحسين فك التشفير (decoder). وبشكل خاص، بناءً على الملاحظة أن قدرة تصنيف الفئة الواحدة محدودة أمام مجموعة بيانات شديدة عدم التوازن (extremely unbalanced dataset)، نقوم أولًا بتوظيف مجموعة من المصنفات التي تكون خبيرة في تمييز فئات مختلفة، ثم نحسنها بشكل تعاوني من جهتين لتعزيز SGG غير المنحاز. وقد أظهرت التجارب التي أجريت على مجموعتي البيانات VG و GQA أننا ليس فقط أنشأنا مستوى جديدًا من الطليعية في المقاييس غير المنحازة، ولكن أيضًا ضاعفنا تقريبًا الأداء مقارنة باثنين من النماذج الأولية.

التعلم التعاوني المجموعاتي والانتباه الهجين المتراكم لتكوين رسم بياني مشهد خالي من التحيز | أحدث الأوراق البحثية | HyperAI