HyperAIHyperAI

Command Palette

Search for a command to run...

التجميع الإدراكي في نماذج الرؤية واللغة المقارنة

Kanchana Ranasinghe* Brandon McKinzie Sachin Ravi Yinfei Yang Alexander Toshev Jonathon Shlens†

الملخص

التطورات الحديثة في التعرف على الصور بدون أمثلة تشير إلى أن نماذج الرؤية واللغة تتعلم تمثيلات بصرية عامة تحتوي على درجة عالية من المعلومات الدلالية التي يمكن استكشافها بشكل تعسفي باستخدام عبارات اللغة الطبيعية. ومع ذلك، فإن فهم الصورة لا يتعلق فقط بما يحتويه محتوى الصورة، بل يتعلق أيضًا بموقع هذا المحتوى داخل الصورة. في هذه الدراسة، نقوم بفحص مدى قدرة نماذج الرؤية واللغة على فهم موقع الأشياء داخل الصورة وجمع الأجزاء المرتبطة بصريًا من الصور. نوضح كيف تلتقط النماذج الحديثة لتعلم تمثيلات الرؤية واللغة، المستندة إلى الخسائر التباينية والبيانات الويب الكبيرة، معلومات محدودة عن تحديد موقع الأشياء. نقترح مجموعة بسيطة من التعديلات التي تؤدي إلى نماذج تتعلم بشكل فريد كلًا من المعلومات الدلالية والمعلومات المكانية. نقيس أداء هذه النماذج من حيث التعرف على الصور بدون أمثلة، والتقطيع الدلالي السفلي والعلي للصورة دون إشراف، بالإضافة إلى تحليلات متانة. نجد أن النموذج الناتج يحقق أفضل النتائج في مجال التقطيع غير المشرف (unsupervised segmentation)، ونوضح أن التمثيلات المُتعلمة مقاومة بشكل فريد للارتباطات العرضية في مجموعات البيانات المصممة لاستكشاف السلوك السببي لنماذج الرؤية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp