HyperAIHyperAI
منذ 2 أشهر

HyperSeg: نحو التجزئة البصرية الشاملة باستخدام نماذج اللغة الكبيرة

Cong Wei; Yujie Zhong; Haoxian Tan; Yong Liu; Zheng Zhao; Jie Hu; Yujiu Yang
HyperSeg: نحو التجزئة البصرية الشاملة باستخدام نماذج اللغة الكبيرة
الملخص

يهدف هذا البحث إلى معالجة التجزئة الشاملة للاستشعار البصري للصور والفيديوهات بفضل القدرة الاستدلالية القوية التي توفرها نماذج اللغات البصرية الكبيرة (VLLMs). رغم التقدم الملحوظ في الأساليب الحالية للتجزئة الموحدة، فإن صعوبات التكيف مع سيناريوهات الصور والفيديوهات، بالإضافة إلى التجزئة المعقدة التي تتطلب استدلالًا دقيقًا، تجعل من الصعب التعامل مع تعليمات متنوعة وتحديدها بدقة، وكذلك تحقيق فهم دقيق للعلاقات الدقيقة بين الرؤية واللغة. نقترح نظام HyperSeg، وهو أول نموذج تجزئة شامل يستند إلى VLLMs للاستشعار البصري على مستوى البكسل للصور والفيديوهات، والذي يشمل مهام التجزئة العامة بالإضافة إلى مهام الاستشعار المعقدة التي تتطلب قدرات استدلالية قوية ومعرفة عالمية. علاوة على ذلك، للاستفادة الكاملة من قدرات التعرف في نماذج اللغات البصرية الكبيرة والمعلومات البصرية الدقيقة، يتم دمج نظام HyperSeg بمODULES للتعرف الهجين على الكيانات وMODULES للمستشعر البصري الدقيق لمجموعة متنوعة من مهام التجزئة. بالاشتراك مع المعدل الزمني، يحقق نظام HyperSeg فهمًا شاملًا للمعلومات الزمنية. تؤكد النتائج التجريبية فعالية رؤيتنا في حل مهام التجزئة الشاملة للصور والفيديوهات، بما في ذلك المهام الأكثر تعقيدًا المتعلقة بالاستشعار والاستدلال. كودنا متاح.

HyperSeg: نحو التجزئة البصرية الشاملة باستخدام نماذج اللغة الكبيرة | أحدث الأوراق البحثية | HyperAI