إعادة تنظيم وقت فك التشفير
إعادة محاذاة وقت فك التشفير (DeRa) هي طريقة لضبط درجة محاذاة النموذج عندما يولد نموذج اللغة إجابة. تم اقتراحه في عام 2024 من قبل باحثين من جامعة بازل في سويسرا، وجامعات في المملكة المتحدة وفرنسا، بالإضافة إلى Google DeepMind وGoogle Research.إعادة تنظيم نماذج اللغة في زمن فك التشفير"تم قبوله من قبل ICML-2024 وتم اختياره كعرض مميز (يمثل 3.5% فقط من إجمالي المشاركات).
الفكرة الأساسية لهذه التقنية هي ضبط محاذاة النموذج بشكل ديناميكي أثناء عملية فك التشفير دون إعادة تدريب النموذج، وبالتالي توفير موارد الحوسبة وتحسين كفاءة البحث. على وجه التحديد، تتمكن طريقة إعادة تنظيم وقت فك التشفير (DeRa) من ضبط التوازن بين المكافأة والتنظيم عند إنشاء الإجابات. ويتم تحقيق التحكم في درجة محاذاة النموذج من خلال استيفاء نموذج الضبط الدقيق الخاضع للإشراف (SFT) والنموذج المحاذي على الإخراج الأصلي (اللوجيت) لتقريب قوى التنظيم المختلفة. تعتبر هذه الطريقة بسيطة ومرنة، ويمكنها ضبط قوة المحاذاة وفقًا لاحتياجات مختلفة، مع تجنب التكلفة الحسابية لتدريب النموذج بشكل متكرر.
وبالإضافة إلى ذلك، أظهرت هذه التقنية نتائج جيدة في تجارب متعددة. على سبيل المثال، تظهر التجارب على نموذج Zephyr-7b كيف يقوم DeRa بتعديل محاذاة نموذج اللغة أثناء فك التشفير، وتؤكد التجارب على طول الجيل والمهام الموجزة تشابه DeRa مع النموذج المعاد تدريبه وإمكاناته في تقليل الهلوسة.