HyperAIHyperAI
منذ 2 أشهر

إطار موحد لمتحولات التحويل للتقسيم المجموعاتي: التقسيم المشترك، اكتشاف البارزة المشتركة واكتشاف الأشياء البارزة في الفيديو

Su, Yukun ; Deng, Jingliang ; Sun, Ruizhou ; Lin, Guosheng ; Wu, Qingyao
إطار موحد لمتحولات التحويل للتقسيم المجموعاتي:
التقسيم المشترك، اكتشاف البارزة المشتركة واكتشاف الأشياء البارزة في الفيديو
الملخص

يميل البشر إلى استخراج الأشياء من خلال التعلم من مجموعة من الصور أو عدة إطارات فيديو، نظرًا لعيشهم في عالم ديناميكي. في مجال رؤية الحاسوب، تركز العديد من البحوث على التقطيع المشترك (CoS)، وكشف البارزة المشتركة (CoSD)، وكشف الأشياء البارزة في الفيديو (VSOD) لاكتشاف الأشياء المشتركة. ومع ذلك، فإن النهج السابقة تصمم شبكات مختلفة لهذه المهام المتشابهة بشكل منفصل، مما يجعلها صعبة التطبيق فيما بينها، مما يقلل من الحد الأعلى للقابلية على النقل لأنماط التعلم العميق. بالإضافة إلى ذلك، فإنها فاشلة في الاستفادة الكاملة من المؤشرات بين الخصائص داخلية وخارجية ضمن مجموعة الصور. في هذا البحث، نقدم إطارًا موحدًا لمعالجة هذه القضايا، والذي نطلق عليه اسم UFO (UFO: الإطار الموحد للتقطيع المشترك للأجسام). بصفة خاصة، نقدم أولاً كتلة تحويلية (Transformer Block)، التي تعتبر خاصية الصورة كرمز لقطعة (Patch Token) ثم تلتقط اعتماداتها طويلة المدى عبر آلية الانتباه الذاتي (Self-Attention Mechanism). يمكن لهذا أن يساعد الشبكة على الكشف عن التشابهات الهيكلية للقطع بين الأجسام ذات الصلة. علاوة على ذلك، نقترح وحدة تعلم MLP داخلية لإنتاج قناع ذاتي يعزز قدرة الشبكة على تجنب التنشيط الجزئي. أظهرت التجارب الواسعة على أربع معايير CoS (PASCAL, iCoseg, Internet و MSRC)، وثلاث معايير CoSD (Cosal2015, CoSOD3k و CocA) وأربعة معايير VSOD (DAVIS16, FBMS, ViSal و SegV2) أن طريقتنا تتفوق على الأساليب الأخرى الأكثر حداثة في ثلاث مهام مختلفة من حيث الدقة والسرعة باستخدام نفس هندسة الشبكة، والتي يمكن أن تصل إلى 140 إطارًا في الثانية بشكل فعلي.

إطار موحد لمتحولات التحويل للتقسيم المجموعاتي: التقسيم المشترك، اكتشاف البارزة المشتركة واكتشاف الأشياء البارزة في الفيديو | أحدث الأوراق البحثية | HyperAI