HyperAIHyperAI
منذ 2 أشهر

التقسيم الهرمي للصور بمفردات مفتوحة وشاملة

Wang, Xudong ; Li, Shufan ; Kallidromitis, Konstantinos ; Kato, Yusuke ; Kozuka, Kazuki ; Darrell, Trevor
التقسيم الهرمي للصور بمفردات مفتوحة وشاملة
الملخص

يهدف تقسيم الصور المفتوح-المفردات إلى تقسيم صورة إلى مناطق معنوية وفقًا لوصف نصوص عشوائية. ومع ذلك، يمكن تحليل المشاهد البصرية المعقدة بشكل طبيعي إلى أجزاء أبسط وتوضيحها على مستويات متعددة من التفصيل، مما يثير الغموض الداخلي في التقسيم. على عكس الأساليب الحالية التي تتجنب غالبًا هذا الغموض وتعتبره عاملًا خارجيًا، فإن نهجنا يدمج بنشاط تمثيلًا هرميًا يشمل مستويات مختلفة من المعنى في عملية التعلم. نقترح آلية دمج مفككة بين النص والصورة وأدوات تعلم التمثيل لكل من "الأشياء" و"المواد". بالإضافة إلى ذلك، نقوم بفحص نظامي للاختلافات الموجودة في الخصائص النصية والبصرية بين هذه الفئات. النموذج الناتج لدينا، والذي سميناه HIPIE (HIerarchical, oPen-vocabulary, and unIvErsal)، يتعامل مع مهام التقسيم الهرمي والمفتوح-المفردات والشاملة ضمن إطار موحد. تم اختبار HIPIE على أكثر من 40 مجموعة بيانات، مثل ADE20K، COCO، Pascal-VOC Part، RefCOCO/RefCOCOg، ODinW وSeginW، حيث حقق أفضل النتائج الحالية في مستويات مختلفة من فهم الصورة، بما في ذلك المستوى المعنوي (مثل تقسيم المعاني)، المستوى الفردي (مثل تقسيم البانورامي/التشاركي وكشف الأشياء)، وكذلك المستوى الجزئي (مثل تقسيم الأجزاء/الفرعيات). تم إطلاق شفرتنا المصدر على https://github.com/berkeley-hipie/HIPIE.

التقسيم الهرمي للصور بمفردات مفتوحة وشاملة | أحدث الأوراق البحثية | HyperAI