التاريخ

منذ 2 أعوام

UNA تعني إطار عمل المحاذاة الموحدة، وهو إطار عمل محاذاة جديد اقترحه فريق بحثي من Salesforce وجامعة شيامن. نتائج الورقة ذات الصلة هيUNA: توحيد محاذاة RLHF/PPO وDPO وKTO من خلال دالة المكافأة الضمنية المعممة".

الفكرة الأساسية لـ UNA هي توحيد تقنيات المحاذاة المختلفة، بما في ذلك RLHF/PPO وDPO وKTO، من خلال دالة مكافأة ضمنية معممة. إن الجديد في هذا النهج هو أنه يدمج تقنيات المحاذاة هذه في مشكلة التعلم الخاضع للإشراف لتقليل الفرق بين المكافآت الضمنية والصريحة.

تم اقتراح UNA لمعالجة بعض القيود التي تواجه تقنيات المحاذاة الحالية. على سبيل المثال، يتطلب RLHF تدريب نموذج المكافأة والسياسة بشكل منفصل، وهو أمر معقد ويستغرق وقتًا طويلاً ويستهلك الكثير من الذاكرة وغير مستقر أثناء التدريب. على الرغم من أن DPO يقترح علاقة رسم خرائط بين الاستراتيجية المثلى والمكافأة ويبسط عملية تدريب RLHF، إلا أنه لا يستطيع الاستفادة الكاملة من نموذج المكافأة ويقتصر على بيانات التفضيل المزدوجة. تثبت UNA رياضيا أنه بالنظر إلى هدف RLHF الكلاسيكي، يمكن استحثاث السياسة المثلى من خلال دالة مكافأة ضمنية معممة. يتيح هذا التعيين الجديد لـ UNA تبسيط RLHF/PPO مع تثبيت وتسريع وتقليل عبء الذاكرة لعملية الضبط الدقيق RL، واستيعاب أنواع مختلفة من ردود الفعل، بما في ذلك ردود الفعل الزوجية والثنائية والقياسية.

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

يحل هذا النظام بفعالية التحديات الرئيسية في عملية المحاذاة الآمنة لـ LVLM.

منذ 2 أشهر

حساء الخبراء في فئة SoCE

SoCE هو نموذج لتحسين النماذج يعتمد على آلية اختيار الخبراء التلقائية الواعية بالفئات ويتم دمجه مع مهام قياس الأداء المتعددة.

منذ 2 أشهر

تمريرة أمامية مُفككة (DePass)

تُستخدم DePass لتفسير نموذج Transformer عن طريق تحليل المرور الأمامي.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

التاريخ

منذ 2 أعوام

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

يحل هذا النظام بفعالية التحديات الرئيسية في عملية المحاذاة الآمنة لـ LVLM.

منذ 2 أشهر

حساء الخبراء في فئة SoCE

منذ 2 أشهر

تمريرة أمامية مُفككة (DePass)

تُستخدم DePass لتفسير نموذج Transformer عن طريق تحليل المرور الأمامي.

منذ 2 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

Command Palette

إطار عمل محاذاة UNA

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إطار عمل محاذاة UNA

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إطار عمل محاذاة UNA

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)

ذات صلة ويكي

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

حساء الخبراء في فئة SoCE

تمريرة أمامية مُفككة (DePass)