HyperAI
منذ 4 أيام

ScaleCap: الاستدلال القابل للتوسع في وقت التشغيل لوصف الصور عبر التحيز الثنائي

Long Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin
ScaleCap: الاستدلال القابل للتوسع في وقت التشغيل لوصف الصور عبر التحيز الثنائي
الملخص

يقدم هذا البحث استراتيجية تسمى ScaleCap، وهي استراتيجية قابلة للتوسع في مرحلة الاستدلال لتوليد عناوين صور شاملة ومفصلة. تكمن التحديات الرئيسية لكتابة العناوين ذات الجودة العالية في التحيزات المتأصلة في النماذج اللغوية المرئية-اللغوية (LVLMs): التحيز متعدد الوسائط الذي يؤدي إلى عدم توازن الدقة الوصفية، حيث يتم تقديم وصف مفصل لبعض العناصر بينما يتم تجاهل غيرها؛ والتحيز اللغوي الذي يؤدي إلى وصف أشياء غير موجودة بالفعل. لحل هذه المشكلات، نقترح استراتيجية كتابة العناوين القابلة للتوسع وخالية من التحيز، والتي تعمل على إثراء وتوفيق العنوان بشكل مستمر مع زيادة ميزانية الاستدلال. وبشكل خاص، نقترح مكونين جديدين: الإجابة على الأسئلة بناءً على تقديرات أولية والتصنيف المقارن للجمل. الأول يولد أسئلة خاصة بالمحتوى استنادًا إلى الصورة ويجيب عليها لإدخال المعلومات ذات الصلة تدريجيًا في العنوان. الثاني يستخدم فك الشفرة المقارن خارج الخط على مستوى الجمل لتحديد وإزالة الوهم الناجم عن التحيزات اللغوية بشكل فعال.مع زيادة تكلفة الاستدلال، تقوم ScaleCap بطرح المزيد من الأسئلة التقريبية لالتقاط المزيد من التفاصيل البصرية بشكل تدريجي، مما يؤدي إلى إنتاج عناوين أكثر دقة وتوازنًا ومعلوماتية. أظهرت التجارب الواسعة للتوفيق بين الوسائط فعالية ScaleCap. عند استخدام ScaleCap لتسمية 450 ألف صورة واستخدامها في مرحلة ما قبل التدريب للنماذج اللغوية المرئية-اللغوية (LVLMs)، تم تحقيق ارتفاعات ثابتة في الأداء عبر 11 مقاييس شائعة الاستخدام.علاوة على ذلك، تظهر ScaleCap غنىً ودقةً ممتازين في العناوين المولدة من خلال مهمتين إضافيتين: استبدال الصور بالعناوين في مهمة الإجابة عن الأسئلة البصرية (VQA)، وإعادة بناء الصور من العناوين لتقييم التغطية الدلالية. يمكن الحصول على الكود من الرابط التالي: https://github.com/Cooperx521/ScaleCap.