HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

الاستدلال عبر الحدود: تحسين التوافق المحدد من خلال التفكير التأملي عند وقت الاختبار

Haoran Zhang Yafu Li Xuyang Hu Dongrui Liu Zhilin Wang Bo Li Yu Cheng

الاستدلال عبر الحدود: تحسين التوافق المحدد من خلال التفكير التأملي عند وقت الاختبار

الملخص

تُستخدم النماذج اللغوية الكبيرة (LLMs) بشكل متزايد في سيناريوهات واقعية متنوعة، حيث تُحكم كل سيناريو بمواصفات سلوكية وأمنية مخصصة تُعدّ حسب طلب المستخدمين أو المؤسسات. وتُصنف هذه المواصفات إلى نوعين: مواصفات أمنية (safety-spec) ومواصفات سلوكية (behavioral-spec)، وتختلف بين السيناريوهات، وتتطور مع التغيرات في التفضيلات والمتطلبات. نُصِف هذا التحدي على أنه "مطابقة المواصفات" (specification alignment)، مع التركيز على قدرة النماذج اللغوية الكبيرة على الالتزام بمواصفات ديناميكية ومخصصة لكل سيناريو من منظورين: السلوك والسلامة. وللتصدي لهذا التحدي، نُقدّم "Align3"، وهي طريقة خفيفة الوزن تعتمد على التفكير التأملي في وقت الاختبار (Test-Time Deliberation - TTD) مع تفكير تسلسلي وإعادة صياغة لاستكشاف حدود المواصفات. كما نقدّم "SpecBench"، وهو معيار موحد لقياس مطابقة المواصفات، يغطي 5 سيناريوهات، و103 مواصفات، و1500 مُدخل (prompt). أظهرت التجارب على 15 نموذجًا للتفكير و18 نموذجًا للإرشاد، باستخدام عدة طرق TTD مثل Self-Refine وTPO وMoreThink، ثلاث نتائج رئيسية: (أ) يُحسّن التفكير التأملي في وقت الاختبار من مطابقة المواصفات؛ (ب) يُقدّم Align3 تقدّمًا في توازن السلامة والفعالية مع تكلفة تشغيلية ضئيلة جدًا؛ (ج) يُظهر SpecBench بفعالية الفجوات في المطابقة. تُبرز هذه النتائج الإمكانات الكبيرة للتفكير التأملي في وقت الاختبار كاستراتيجية فعّالة لمعالجة حدود المواصفات في البيئات الواقعية.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الاستدلال عبر الحدود: تحسين التوافق المحدد من خلال التفكير التأملي عند وقت الاختبار | الأوراق البحثية | HyperAI