HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين بسيط لثقة المستوى الخاص بالـ Token يُحسّن دقة الوصف الوصفي

Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach

الملخص

القدرة على تقييم ما إذا كان وصف (كابشن) يصف صورة بشكل صحيح تمثل جزءًا حاسمًا من فهم الرؤية واللغة. ومع ذلك، فإن النماذج المتطورة غالبًا ما تفسر بشكل خاطئ صحة التفاصيل الدقيقة، مما يؤدي إلى أخطاء في المخرجات مثل توليد كائنات غير موجودة في الصورة (الوهم البصري) أو ضعف التفكير التراكبي. في هذا العمل، نستكشف مفهوم "الثقة على مستوى الرموز" (Token-Level Confidence، أو TLC) كطريقة بسيطة لكنها مذهلة الفعالية لتقييم صحة الوصف. بشكل محدد، نُدرّب نموذجًا للرؤية واللغة على إنشاء وصف للصور، ثم نُدخل الصورة والوصف المقترح إلى النموذج، ونجمع إما قياسات ثقة جبرية أو ثقة مُدرّبة على مستوى الكلمات أو التسلسلات لتقدير التوافق بين الصورة والوصف. مقارنةً بمقاييس المستوى التسلسلي المستمدة من النماذج المُدرّبة مسبقًا، يحقق TLC باستخدام قياسات الثقة الجبرية تحسنًا نسبيًا في الدقة بنسبة 10% في فهم الأفعال في اختبارات SVO-Probes، ويتفوق على أحدث النماذج السابقة في مقاييس الصورة والمجموعة الخاصة بالتفكير التراكبي في Winoground بنسبة 37% و9% على التوالي. وعند توفر بيانات تدريب، يُقدّم مُقدّر الثقة المُدرّب أداءً أفضل، حيث يقلل من معدلات التوليد الوهمي للكائنات في مجموعة MS COCO Captions بنسبة 30% مقارنةً بالنموذج الأصلي، ويُسجّل أداءً جديدًا على مستوى الحالة الحالية (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp