COFAR: التفكير البديهي والمنطقي في البحث عن الصور

إحدى السمات التي تجعل البشر أذكى من النماذج الذكية الاصطناعية الحديثة هي القدرة على تفسير الصور بما يتجاوز ما هو مرئي بشكل مباشر. فلننظر إلى الاستعلامين الطبيعيين التاليين: (1) "طابور من الزبائن الذين ينتظرون بصبر لشراء الآيس كريم"، و(2) "طابور من السياح الذين يذهبون لرؤية مبنى معماري مغولي شهير في الهند". يتطلب تفسير هذين الاستعلامين القدرة على التفكير في (1) المعرفة الشائعة، مثل تفسير الأشخاص على أنهم زبائن أو سياح، والإجراءات على أنها "انتظار لشراء" أو "الذهاب لرؤية"، و(2) المعرفة الواقعية أو المعرفة بالعالم المرتبطة بالكيانات البصرية المحددة، مثلاً: هل المتجر في الصورة يبيع الآيس كريم؟ وهل الموقع الشهير في الصورة هو مبنى معماري مغولي موجود في الهند؟ إن هذا النوع من التفكير يتجاوز التعرف البصري فقط. ولتمكين التفكير المشترك والمعارف الواقعية في عملية بحث الصور، نقدّم إطارًا موحدًا يُسمى "مُحول متعدد الوسائط مُعزز بالاسترجاع المعرفي" (KRAMT)، والذي يُعامل الكيانات البصرية المحددة في الصورة كبوابة إلى المعرفة الإكسيكبديّة، ويستفيد منها مع الاستعلام اللغوي الطبيعي لربط المعرفة ذات الصلة. علاوةً على ذلك، يدمج KRAMT بسلاسة المحتوى البصري والمعرفة المُثبتة (grounded knowledge) لتعلم التوافق بين الصور والاستعلامات. ويُستخدم هذا الإطار الموحّد لإجراء بحث في الصور يتطلب تفكيرًا مشتركًا ومعرفة واقعية. تم تقييم أداء استرجاع KRAMT ومقارنته بالأساليب ذات الصلة على مجموعة بيانات جديدة قمنا بإنشائها، تُسمى COFAR. ونُقدّم كودنا وبياناتنا عبر الرابط التالي: https://vl2g.github.io/projects/cofar