الملخص

تقدم هذه الورقة إطارًا بسيطًا ولكن فعّالًا يُسمّى GiT، قابل للتطبيق بشكل متزامن على مهام بصرية متنوعة باستخدام نموذج ViT عادي فقط. مستلهمين من الطبيعة الشاملة لبنية المُحَوِّل متعددة الطبقات (مثل GPT)، التي تُستخدم على نطاق واسع في نماذج اللغة الكبيرة (LLMs)، نسعى إلى توسيع نطاق تطبيقها ليصبح نموذجًا أساسيًا قويًا للرؤية (VFM). ومع ذلك، على عكس نمذجة اللغة، تتطلب المهام البصرية عادةً وحدات محددة، مثل وحدات مربعات الحدود للكشف أو فكودات البكسل للتحليل، مما يعيق بشكل كبير تطبيق المحولات متعددة الطبقات القوية في مجال الرؤية. لحل هذه المشكلة، صممنا واجهة لغوية عامة تمكن من التفكيك التلقائي الناجح، مما يتيح دمجًا متماسكًا لمختلف المهام البصرية، بدءًا من فهم الصور (مثل التسمية)، مرورًا بالاستشعار المتبقي (مثل الكشف)، ووصولًا إلى التنبؤ الكثيف (مثل التحليل). استنادًا إلى هذه التصاميم، يتكون النموذج بالكامل من ViT فقط، دون أي إضافات مخصصة، مما يوفر تبسيطًا ملحوظًا في البنية المعمارية. يُعد GiT نموذجًا بصريًا متعدد المهام، يتم تدريبه بشكل مشترك عبر خمسة معايير ممثلة دون الحاجة إلى ضبط مخصص لكل مهمة. بشكل مثير للاهتمام، يُحدث GiT معيارًا جديدًا في الأداء العام، ويعزز التفاعل المتبادل بين المهام، مما يؤدي إلى تحسينات كبيرة مقارنة بالتدريب المنفصل. ويُظهر هذا تأثيرًا مشابهًا لما لوحظ في نماذج اللغة الكبيرة. وبالإثراء الإضافي للتدريب بـ 27 مجموعة بيانات، يحقق GiT نتائج قوية في الحالة الصفرية (zero-shot) عبر مهام متنوعة. وبفضل تصميمه البسيط، يُعد هذا النموذج واعدًا في تقليل الفجوة المعمارية بين مجالات الرؤية واللغة. سيتم إتاحة الكود والنماذج على الرابط: \url{https://github.com/Haiyang-W/GiT}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة

Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة

Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

GiT: نحو نموذج رؤية عام من خلال واجهة لغوية عامة

Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters