HyperAIHyperAI
منذ 11 أيام

الاستنتاج المُثبت بصريًا عبر اللغات والثقافات

Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy, Nigel Collier, Desmond Elliott
الاستنتاج المُثبت بصريًا عبر اللغات والثقافات
الملخص

تُستمد تصميمات مجموعات البيانات الواسعة المتعددة الوسائط (Vision-and-Language) والمحولات المُدرّبة مسبقًا، بشكل مباشر أو من خلال الاستلهام، من المفاهيم والصور المُستمدة من ImageNet. وعلى الرغم من أن من الصعب المبالغة في تقدير مدى الإسهام الذي قدّمه هذا المعيار في تطور الرؤية الحاسوبية، إلا أنه يعتمد في معظم أجزائه على قواعد بيانات لغوية وعمليات بحث صور باللغة الإنجليزية، مما يؤدي إلى مصادر مُوَقَّعة بانحياز نحو أمريكا الشمالية أو أوروبا الغربية. ولذلك، نُصْمِم بروتوكولًا جديدًا لبناء هرمية من نوع ImageNet تمثيلية لعدد أكبر من اللغات والثقافات. وبشكل خاص، نجعل اختيار المفاهيم والصور كليًا يُوجَّه من قِبل الناطقين الأصليين، بدلًا من جمعها تلقائيًا. ونركّز بشكل خاص على مجموعة متنوعة من النمط اللغوي، تشمل الإندونيسية، والصينية المعيارية، والسوادانية، والتاميلية، والتركية. وباستخدام المفاهيم والصور التي تم جمعها عبر هذا البروتوكول الجديد، نُنشئ مجموعة بيانات متعددة اللغات لاستدلال متعدد الثقافات على الرؤية واللغة (MaRVL)، وذلك من خلال استخلاص عبارات من مُرَقِّمي الناطقين الأصليين حول أزواج من الصور. وتتمثل المهمة في التمييز بين ما إذا كانت كل عبارة مُرَتَّبة (مُرَتَّبة على صورة معينة) صحيحة أم خاطئة. ونُحدِّد سلسلة من القواعد المرجعية باستخدام نماذج حديثة جدًا، ونجد أن أداء نقل التعلم عبر اللغات يتأخر بشكل كبير مقارنة بالأداء المُدرَّب مسبقًا باللغة الإنجليزية. وتدفع هذه النتائج إلى إعادة تقييم متانة ودقة النماذج المتطورة حاليًا خارج نطاق ضيق، لكنها أيضًا تُفْتَح آفاقًا جديدة ومثيرة للتحديات في تطوير أنظمة حقيقية متعددة اللغات والثقافات.

الاستنتاج المُثبت بصريًا عبر اللغات والثقافات | أحدث الأوراق البحثية | HyperAI