HyperAIHyperAI
منذ 8 أيام

GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة

Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang
GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة
الملخص

تقدم هذه الورقة إطارًا بسيطًا ولكن فعّالًا يُسمّى GiT، قابل للتطبيق بشكل متزامن على مهام بصرية متنوعة باستخدام نموذج ViT عادي فقط. مستلهمين من الطبيعة الشاملة لبنية المُحَوِّل متعددة الطبقات (مثل GPT)، التي تُستخدم على نطاق واسع في نماذج اللغة الكبيرة (LLMs)، نسعى إلى توسيع نطاق تطبيقها ليصبح نموذجًا أساسيًا قويًا للرؤية (VFM). ومع ذلك، على عكس نمذجة اللغة، تتطلب المهام البصرية عادةً وحدات محددة، مثل وحدات مربعات الحدود للكشف أو فكودات البكسل للتحليل، مما يعيق بشكل كبير تطبيق المحولات متعددة الطبقات القوية في مجال الرؤية. لحل هذه المشكلة، صممنا واجهة لغوية عامة تمكن من التفكيك التلقائي الناجح، مما يتيح دمجًا متماسكًا لمختلف المهام البصرية، بدءًا من فهم الصور (مثل التسمية)، مرورًا بالاستشعار المتبقي (مثل الكشف)، ووصولًا إلى التنبؤ الكثيف (مثل التحليل). استنادًا إلى هذه التصاميم، يتكون النموذج بالكامل من ViT فقط، دون أي إضافات مخصصة، مما يوفر تبسيطًا ملحوظًا في البنية المعمارية. يُعد GiT نموذجًا بصريًا متعدد المهام، يتم تدريبه بشكل مشترك عبر خمسة معايير ممثلة دون الحاجة إلى ضبط مخصص لكل مهمة. بشكل مثير للاهتمام، يُحدث GiT معيارًا جديدًا في الأداء العام، ويعزز التفاعل المتبادل بين المهام، مما يؤدي إلى تحسينات كبيرة مقارنة بالتدريب المنفصل. ويُظهر هذا تأثيرًا مشابهًا لما لوحظ في نماذج اللغة الكبيرة. وبالإثراء الإضافي للتدريب بـ 27 مجموعة بيانات، يحقق GiT نتائج قوية في الحالة الصفرية (zero-shot) عبر مهام متنوعة. وبفضل تصميمه البسيط، يُعد هذا النموذج واعدًا في تقليل الفجوة المعمارية بين مجالات الرؤية واللغة. سيتم إتاحة الكود والنماذج على الرابط: \url{https://github.com/Haiyang-W/GiT}.

GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة | أحدث الأوراق البحثية | HyperAI