روتو: تعلم التوجيه إلى النماذج اللغوية الكبيرة بكفاءة

النماذج اللغوية الكبيرة (LLMs) ذات جودة الاستجابة الأعلى--خاصة النماذج الأكبر أو ذات المصدر المغلق--غالبًا ما تأتي مع تكاليف استدلال أعلى، مما يجعل نشرها غير فعال ومرتفع التكلفة. في الوقت نفسه، أصبح تطوير النماذج اللغوية الكبيرة الأساسية من الصفر يتطلب موارد متزايدة ويصبح غير عملي للكثير من التطبيقات. لمعالجة تحدي الموازنة بين الجودة والتكلفة، نقدم روتو (Routoo)، وهي هندسة مصممة لتحسين اختيار النماذج اللغوية الكبيرة للإشارات الخاصة بناءً على الأداء والتكلفة والكفاءة. توفر روتو قابلية التحكم في التوازن بين تكلفة الاستدلال وجودة الاستجابة، مما يمكّن من خفض كبير في تكاليف الاستدلال لتلبية متطلبات الجودة المحددة. تتكون روتو من مكونين أساسيين: متنبئ الأداء واختياري الوعي بالتكلفة. يعتبر متنبئ الأداء نموذجًا لغويًا خفيف الوزن يقدر الأداء المتوقع لنماذج LLM المختلفة على إشارة معينة دون تنفيذها. ثم يقوم اختياري الوعي بالتكلفة بتحديد النموذج الأكثر ملاءمة بناءً على هذه التنبؤات والقيود مثل التكلفة وتاخير الاستجابة، مما يؤدي إلى خفض كبير في تكاليف الاستدلال بنفس مستوى الجودة.تم تقييم روتو باستخدام مقاييس MMLU عبر 57 مجالًا باستخدام نماذج ذات مصدر مفتوح. أظهرت نتائجنا أن روتو تتطابق مع أداء نموذج Mixtral 8x7b بينما تخفض تكاليف الاستدلال بمقدار الثلث. بالإضافة إلى ذلك، عن طريق السماح بزيادة التكاليف، فإن روتو تتفوق على دقة Mixtral بنسبة أكثر من 5% عند نفس مستوى التكلفة، لتحقيق دقة بلغت 75.9%. عند دمج GPT-4 في مجموعة نماذجنا، فإن روتو تقريبًا تتطابق مع أداء GPT-4 بتكلفة أقل بنسبة النصف وتتفوق عليه بتخفيض التكلفة بنسبة 25%. تعكس هذه النتائج إمكانية روتو في خفض كبير لتكاليف الاستدلال دون المساس بالجودة، وحتى تحقيق نتائج جديدة متقدمة عن طريق استغلال القدرات الجماعية لنماذج LLM المتعددة.