نماذج اللغة والصورة المدربة بالطريقة التباينية هي متنبئات مسارات النظر البشري بدون تدريب مسبق

فهم الآليات الكامنة وراء الانتباه البشري يمثل تحديًا أساسيًا لكل من علوم الرؤية والذكاء الصناعي. رغم اقتراح العديد من النماذج الحاسوبية للاستعراض الحر، فإن المعرفة حول الآليات التي توجه استكشاف الصور القائمة على المهام لا تزال محدودة. لسد هذه الفجوة، نقدم قاعدة بيانات CapMIT1003، وهي تتضمن التسميات التوضيحية واستكشافات الصور المرتبطة بالانقرارات جُمعت أثناء مهام التسمية. تعتمد قاعدة البيانات CapMIT1003 على نفس المنبهات المستخدمة في المعيار المعروف MIT1003، الذي يوفر بيانات تتبع العين تحت ظروف الاستعراض الحر، مما يوفر فرصة واعدة لدراسة الانتباه البشري بشكل متزامن في كلا السياقين. نجعل هذه القاعدة البيانات متاحة للجمهور لتسهيل البحث المستقبلي في هذا المجال.بالإضافة إلى ذلك، نقدم NevaClip، وهو طريقة جديدة غير مشرفة (zero-shot) لتوقع المسارات البصرية التي تجمع بين نماذج التعلم المقارن للصورة واللغة (CLIP) وخوارزميات الانتباه البصري العصبي المستوحاة بيولوجيًا (NeVA). يقوم NevaClip بمحاكاة المسارات البشرية عن طريق تنسيق تمثيل المنبه البصري المحوري مع تمثيل التسمية التوضيحية المرتبطة به، مستخدمًا استكشافًا بصريًا مدفوعًا بالتقدير لإنشاء المسارات. تظهر نتائجنا التجريبية أن NevaClip يتفوق على النماذج الحاسوبية غير المشرفة الحالية للانتباه البصري البشري من حيث مصداقية المسارات، سواء في مهام التسمية أو الاستعراض الحر. علاوة على ذلك، نوضح أن استخدام تسميات خاطئة أو مضللة مع NevaClip يؤدي إلى سلوك عشوائي، مما يؤكد الأثر الكبير للتوجيه بواسطة التسميات في عملية صنع القرار. تسهم هذه النتائج في فهم أفضل للآليات التي توجه الانتباه البشري وتفتح الطريق لمزيد تعقيد النماذج الحاسوبية لتوقع المسارات التي يمكنها دمج الإرشاد المباشر من الأهداف المستقبلية.