Command Palette
Search for a command to run...
LAVT: محول الرؤية الواعي باللغة لتقسيم الصور المرجعية
LAVT: محول الرؤية الواعي باللغة لتقسيم الصور المرجعية
Yang Zhao ; Wang Jiaqi ; Tang Yansong ; Chen Kai ; Zhao Hengshuang ; Torr Philip H. S.
الملخص
التمييز بين الصور هو مهمة أساسية في مجال ربط الرؤية باللغة تهدف إلى فصل كائن مشار إليه بواسطة تعبير لغوي طبيعي من صورة. أحد التحديات الرئيسية لهذه المهمة هو الاستفادة من التعبير المشار إليه لتسليط الضوء على المواقع ذات الصلة في الصورة. نموذج لمعالجة هذه المشكلة هو استخدام محكّم قوي للرؤية واللغة ("متعدد الوسائط") لدمج الخصائص المستخرجة بشكل مستقل من محكّم الرؤية ومحكّم اللغة. قد حققت الأساليب الحديثة تقدمًا ملحوظًا في هذا النموذج من خلال استغلال شبكات الترانسفورمر كمحكّمات متعددة الوسائط، بالتوازي مع النجاح الكبير الذي حققته الترانسفورمر في العديد من مهام ربط الرؤية باللغة الأخرى.في هذا العمل، نتبع نهجًا مختلفًا ونظهر أن يمكن تحقيق توافق متعدد الوسائط أفضل بكثير من خلال دمج الخصائص اللغوية والبصرية مبكرًا في طبقات وسيطة من شبكة محكّم الترانسفورمر للرؤية. عن طريق إجراء دمج الخصائص المتعددة الوسائط في مرحلة ترميز الخصائص البصرية، يمكننا الاستفادة من قوة نموذج الارتباط الجيد التي أثبتتها شبكات الترانسفورمر للترميز لاستخراج السياق متعدد الوسائط المفيد. بهذه الطريقة، يمكن الحصول على نتائج تقسيم دقيقة باستخدام محكم تخمين الأقنعة خفيف الوزن. بدون أي تعقيدات زائدة، يتفوق أسلوبنا على الأساليب السابقة الأكثر تقدمًا بمargins كبيرة على RefCOCO و RefCOCO+ و G-Ref.注:在最后一句中,“margins”一词没有直接对应的阿拉伯语词汇,因此保留了英文原词。如果需要更地道的表达,可以将其替换为“هوامش”或“فروقات”。