شبكة موحدة مرشدة بالانتباه للفصل الشامل

يقوم هذا البحث بدراسة تقسيم المشهد الشامل (Panoptic Segmentation)، وهو مهمة تم اقتراحها حديثًا تقوم بتقسيم الأشياء في المقدمة (Foreground Objects) على مستوى الحالة الفردية بالإضافة إلى محتويات الخلفية (Background Contents) على المستوى الدلالي. كانت الأساليب الموجودة تتعامل مع هذين المشكلتين بشكل منفصل في الغالب، ولكن في هذا البحث، نكشف العلاقة الأساسية بينهما، وبشكل خاص أن الأشياء في المقدمة توفر مؤشرات مكملة لمساعدة فهم الخلفية. نهجنا، الذي أطلقنا عليه اسم الشبكة الموحدة الموجهة بالانتباه (Attention-guided Unified Network - AUNet)، هو إطار عمل موحد يحتوي على فرعين لتقسيم المقدمة والخلفية في آن واحد. يتم إضافة مصدران للانتباه إلى فرع الخلفية، وهما: محرك اقتراح المناطق الإقليمية (Region Proposal Network - RPN) وقناع تقسيم المقدمة، لتوفير الانتباه على مستوى الكائن وعلى مستوى البكسل على التوالي. يتم تعميم نهجنا على مختلف الهياكل الأساسية مع زيادة ثابتة في الدقة لكل من تقسيم المقدمة والخلفية، كما أنه يحدد حالات جديدة رائدة في مقاييس MS-COCO (46.5% PQ) وCityscapes (59.0% PQ).