التجميع الإدراكي في نماذج الرؤية واللغة المقارنة

التطورات الحديثة في التعرف على الصور بدون أمثلة تشير إلى أن نماذج الرؤية واللغة تتعلم تمثيلات بصرية عامة تحتوي على درجة عالية من المعلومات الدلالية التي يمكن استكشافها بشكل تعسفي باستخدام عبارات اللغة الطبيعية. ومع ذلك، فإن فهم الصورة لا يتعلق فقط بما يحتويه محتوى الصورة، بل يتعلق أيضًا بموقع هذا المحتوى داخل الصورة. في هذه الدراسة، نقوم بفحص مدى قدرة نماذج الرؤية واللغة على فهم موقع الأشياء داخل الصورة وجمع الأجزاء المرتبطة بصريًا من الصور. نوضح كيف تلتقط النماذج الحديثة لتعلم تمثيلات الرؤية واللغة، المستندة إلى الخسائر التباينية والبيانات الويب الكبيرة، معلومات محدودة عن تحديد موقع الأشياء. نقترح مجموعة بسيطة من التعديلات التي تؤدي إلى نماذج تتعلم بشكل فريد كلًا من المعلومات الدلالية والمعلومات المكانية. نقيس أداء هذه النماذج من حيث التعرف على الصور بدون أمثلة، والتقطيع الدلالي السفلي والعلي للصورة دون إشراف، بالإضافة إلى تحليلات متانة. نجد أن النموذج الناتج يحقق أفضل النتائج في مجال التقطيع غير المشرف (unsupervised segmentation)، ونوضح أن التمثيلات المُتعلمة مقاومة بشكل فريد للارتباطات العرضية في مجموعات البيانات المصممة لاستكشاف السلوك السببي لنماذج الرؤية.