HyperAIHyperAI
منذ 17 أيام

استرجاع الصور من الوصف السياقي

Benno Krojer, Vaibhav Adlakha, Vibhav Vineet, Yash Goyal, Edoardo Ponti, Siva Reddy
استرجاع الصور من الوصف السياقي
الملخص

القدرة على دمج السياق، بما في ذلك المؤشرات الحسية والزمنية، تلعب دورًا محوريًا في ترسيخ معنى التعبير اللغوي. ولقياس مدى إتقان النماذج الحالية التي تجمع بين الرؤية واللغة لهذا القدرة، قمنا بتصميم تحدي متعدد الوسائط جديد يُسمى "استرجاع الصورة من وصف سياقي" (ImageCoDe). وفي هذا التحدي، يُطلب من النماذج استرجاع الصورة الصحيحة من مجموعة مكونة من 10 مرشحات متباينة بشكل طفيف بناءً على وصف سياقي. وبما أن كل وصف يحتوي فقط على التفاصيل التي تساعد في التمييز بين الصور، فإن هذه الوصف غالبًا ما تكون معقدة من حيث البنية النحوية والبنية الترابطية، وتتطلب استخلاص استنتاجات دلالية. وتُستمد الصور من صور ثابتة وإطارات فيديو. وقد قمنا بإجراء تقييم لعدد من النماذج الرائدة في المجال، بما في ذلك النماذج ذات المُشفرات المتقاطعة مثل ViLBERT والنماذج ذات المُشفرات الثنائية مثل CLIP، على معيار ImageCoDe. أظهرت النتائج أن هذه النماذج تتأخر بشكل كبير عن الأداء البشري: حيث حقق أفضل نموذج دقة قدرها 20.9 في إطارات الفيديو و59.4 في الصور الثابتة، مقابل 90.8 في الأداء البشري. علاوةً على ذلك، قمنا بتجريب نماذج مُعدّلة جديدة مُصممة بشكل أفضل لدمج السياق البصري والزمني في تمثيلاتها، والتي حققت تحسينات محدودة. ونأمل أن يُسهم ImageCoDe في دفع تقدم فهم اللغة المرتبطة بالسياق، من خلال تشجيع النماذج على التركيز على الفروقات البصرية الدقيقة.