HyperAIHyperAI
منذ 11 أيام

PhraseCut: التجزئة الصورية القائمة على اللغة في البيئة الطبيعية

Chenyun Wu, Zhe Lin, Scott Cohen, Trung Bui, Subhransu Maji
PhraseCut: التجزئة الصورية القائمة على اللغة في البيئة الطبيعية
الملخص

ننظر في مشكلة تقسيم مناطق الصورة بناءً على عبارة باللغة الطبيعية، وندرس هذه المشكلة على مجموعة بيانات جديدة تتضمن 77,262 صورة و345,486 زوجًا من العبارات والمناطق. تم جمع هذه المجموعة من البيانات على أساس مجموعة بيانات Visual Genome، واستُخدمت التسميات الموجودة مسبقًا لإنشاء مجموعة صعبة من العبارات المُشِيرة، حيث تم تسمية المناطق المقابلة يدويًا. وتُشير العبارات في مجموعتنا إلى مناطق متعددة، وتحدد عددًا كبيرًا من فئات الكائنات والمواد (stuff)، فضلًا عن سماتها مثل اللون والشكل والأجزاء والعلاقات مع الكيانات الأخرى في الصورة. تُظهر تجاربنا أن الحجم والتنوع المفاهيمي في مجموعتنا يُشكّلان تحديًا كبيرًا للأساليب الحالية الأفضل في مجالها. ونُعالج بشكل منهجي طبيعة التوزيع الطويلة الذيل (long-tail) لهذه المفاهيم، ونقدّم نهجًا مُكوّنًا (modular) يدمج إشارات الفئة والسمة والعلاقة، مما يُفوق الأداء المُحقّق من الأساليب السابقة.

PhraseCut: التجزئة الصورية القائمة على اللغة في البيئة الطبيعية | أحدث الأوراق البحثية | HyperAI