تحسين تفضيلات الرمز
تحسين تفضيلات الرمز (TPO) هي طريقة جديدة اقترحتها مجموعة علي بابا وجامعة محمد بن زايد للذكاء الاصطناعي في يناير 2025 لتقليل مشكلة الهلوسة في نماذج اللغة البصرية الكبيرة (LVLMs). وقد نشرت نتائج البحوث ذات الصلة في ورقة بحثية بعنوان "تحسين تفضيلات الرموز باستخدام مكافآت مُعَايَرَة ذاتيًا مُرَكَّزة بصريًا للتخفيف من الهلوسة".
تهدف TPO إلى تحقيق تصحيح توزيع على مستوى الرمز من خلال تقديم آلية مكافأة تثبيت بصري معايرة ذاتيًا دون الحاجة إلى تعليقات يدوية دقيقة، مما يسمح للنموذج بإيلاء المزيد من الاهتمام للمعلومات البصرية والحد من الهلوسة. يقوم تلقائيًا بتحديد "رموز المرساة المرئية" المرتبطة ارتباطًا وثيقًا بالتضمين المرئي المدخل ويوزع المكافآت بشكل تكيفي بناءً على اعتمادها على المعلومات المرئية. بالمقارنة مع المكافآت التقليدية على مستوى الجملة، يمكن لـ TPO ضبط المحتوى الناتج بشكل أكثر دقة وتقليل مشكلة الهلوسة.