HyperAIHyperAI
منذ 16 أيام

تحسين بسيط لثقة المستوى الخاص بالـ Token يُحسّن دقة الوصف الوصفي

Suzanne Petryk, Spencer Whitehead, Joseph E. Gonzalez, Trevor Darrell, Anna Rohrbach, Marcus Rohrbach
تحسين بسيط لثقة المستوى الخاص بالـ Token يُحسّن دقة الوصف الوصفي
الملخص

القدرة على تقييم ما إذا كان وصف (كابشن) يصف صورة بشكل صحيح تمثل جزءًا حاسمًا من فهم الرؤية واللغة. ومع ذلك، فإن النماذج المتطورة غالبًا ما تفسر بشكل خاطئ صحة التفاصيل الدقيقة، مما يؤدي إلى أخطاء في المخرجات مثل توليد كائنات غير موجودة في الصورة (الوهم البصري) أو ضعف التفكير التراكبي. في هذا العمل، نستكشف مفهوم "الثقة على مستوى الرموز" (Token-Level Confidence، أو TLC) كطريقة بسيطة لكنها مذهلة الفعالية لتقييم صحة الوصف. بشكل محدد، نُدرّب نموذجًا للرؤية واللغة على إنشاء وصف للصور، ثم نُدخل الصورة والوصف المقترح إلى النموذج، ونجمع إما قياسات ثقة جبرية أو ثقة مُدرّبة على مستوى الكلمات أو التسلسلات لتقدير التوافق بين الصورة والوصف. مقارنةً بمقاييس المستوى التسلسلي المستمدة من النماذج المُدرّبة مسبقًا، يحقق TLC باستخدام قياسات الثقة الجبرية تحسنًا نسبيًا في الدقة بنسبة 10% في فهم الأفعال في اختبارات SVO-Probes، ويتفوق على أحدث النماذج السابقة في مقاييس الصورة والمجموعة الخاصة بالتفكير التراكبي في Winoground بنسبة 37% و9% على التوالي. وعند توفر بيانات تدريب، يُقدّم مُقدّر الثقة المُدرّب أداءً أفضل، حيث يقلل من معدلات التوليد الوهمي للكائنات في مجموعة MS COCO Captions بنسبة 30% مقارنةً بالنموذج الأصلي، ويُسجّل أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art).

تحسين بسيط لثقة المستوى الخاص بالـ Token يُحسّن دقة الوصف الوصفي | أحدث الأوراق البحثية | HyperAI