HyperAIHyperAI

Command Palette

Search for a command to run...

التقسيم الهرمي للصور بمفردات مفتوحة وشاملة

Xudong Wang Shufan Li Konstantinos Kallidromitis Yusuke Kato Kazuki Kozuka Trevor Darrell

الملخص

يهدف تقسيم الصور المفتوح-المفردات إلى تقسيم صورة إلى مناطق معنوية وفقًا لوصف نصوص عشوائية. ومع ذلك، يمكن تحليل المشاهد البصرية المعقدة بشكل طبيعي إلى أجزاء أبسط وتوضيحها على مستويات متعددة من التفصيل، مما يثير الغموض الداخلي في التقسيم. على عكس الأساليب الحالية التي تتجنب غالبًا هذا الغموض وتعتبره عاملًا خارجيًا، فإن نهجنا يدمج بنشاط تمثيلًا هرميًا يشمل مستويات مختلفة من المعنى في عملية التعلم. نقترح آلية دمج مفككة بين النص والصورة وأدوات تعلم التمثيل لكل من "الأشياء" و"المواد". بالإضافة إلى ذلك، نقوم بفحص نظامي للاختلافات الموجودة في الخصائص النصية والبصرية بين هذه الفئات. النموذج الناتج لدينا، والذي سميناه HIPIE (HIerarchical, oPen-vocabulary, and unIvErsal)، يتعامل مع مهام التقسيم الهرمي والمفتوح-المفردات والشاملة ضمن إطار موحد. تم اختبار HIPIE على أكثر من 40 مجموعة بيانات، مثل ADE20K، COCO، Pascal-VOC Part، RefCOCO/RefCOCOg، ODinW وSeginW، حيث حقق أفضل النتائج الحالية في مستويات مختلفة من فهم الصورة، بما في ذلك المستوى المعنوي (مثل تقسيم المعاني)، المستوى الفردي (مثل تقسيم البانورامي/التشاركي وكشف الأشياء)، وكذلك المستوى الجزئي (مثل تقسيم الأجزاء/الفرعيات). تم إطلاق شفرتنا المصدر على https://github.com/berkeley-hipie/HIPIE.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
التقسيم الهرمي للصور بمفردات مفتوحة وشاملة | مستندات | HyperAI