HyperAIHyperAI

Command Palette

Search for a command to run...

GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة

Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang

الملخص

تقدم هذه الورقة إطارًا بسيطًا ولكن فعّالًا يُسمّى GiT، قابل للتطبيق بشكل متزامن على مهام بصرية متنوعة باستخدام نموذج ViT عادي فقط. مستلهمين من الطبيعة الشاملة لبنية المُحَوِّل متعددة الطبقات (مثل GPT)، التي تُستخدم على نطاق واسع في نماذج اللغة الكبيرة (LLMs)، نسعى إلى توسيع نطاق تطبيقها ليصبح نموذجًا أساسيًا قويًا للرؤية (VFM). ومع ذلك، على عكس نمذجة اللغة، تتطلب المهام البصرية عادةً وحدات محددة، مثل وحدات مربعات الحدود للكشف أو فكودات البكسل للتحليل، مما يعيق بشكل كبير تطبيق المحولات متعددة الطبقات القوية في مجال الرؤية. لحل هذه المشكلة، صممنا واجهة لغوية عامة تمكن من التفكيك التلقائي الناجح، مما يتيح دمجًا متماسكًا لمختلف المهام البصرية، بدءًا من فهم الصور (مثل التسمية)، مرورًا بالاستشعار المتبقي (مثل الكشف)، ووصولًا إلى التنبؤ الكثيف (مثل التحليل). استنادًا إلى هذه التصاميم، يتكون النموذج بالكامل من ViT فقط، دون أي إضافات مخصصة، مما يوفر تبسيطًا ملحوظًا في البنية المعمارية. يُعد GiT نموذجًا بصريًا متعدد المهام، يتم تدريبه بشكل مشترك عبر خمسة معايير ممثلة دون الحاجة إلى ضبط مخصص لكل مهمة. بشكل مثير للاهتمام، يُحدث GiT معيارًا جديدًا في الأداء العام، ويعزز التفاعل المتبادل بين المهام، مما يؤدي إلى تحسينات كبيرة مقارنة بالتدريب المنفصل. ويُظهر هذا تأثيرًا مشابهًا لما لوحظ في نماذج اللغة الكبيرة. وبالإثراء الإضافي للتدريب بـ 27 مجموعة بيانات، يحقق GiT نتائج قوية في الحالة الصفرية (zero-shot) عبر مهام متنوعة. وبفضل تصميمه البسيط، يُعد هذا النموذج واعدًا في تقليل الفجوة المعمارية بين مجالات الرؤية واللغة. سيتم إتاحة الكود والنماذج على الرابط: \url{https://github.com/Haiyang-W/GiT}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة | مستندات | HyperAI