HyperAI

HyperAI

الرئيسية

الصفحة الرئيسية

GPU

وحدة التحكم
التوثيق
التسعير

Pulse

الأخبار

الموارد

الأوراق البحثية
دفاتر تفاعلية
مجموعات بيانات
ويكي

الاختبارات القياسية

SOTA
نماذج اللغة الكبيرة (LLM)
لوحة صدارة وحدات معالجة الرسوميات GPU

المجتمع

الفعاليات

أدوات

حول شروط الخدمة سياسة الخصوصية
العربية

Command Palette

Search for a command to run...

HyperAI
الأوراق البحثية
Step-DPO: التحسين التفضيلي التدريجي للتفكير المتسلسل الطويل في نماذج LLM

منذ 6 أشهر

نمذجة التفضيلات

الاستدلال

مجموعة بيانات

بنية ذكاء اصطناعي الأساسية

النهج/المعمارية

معالجة اللغة الطبيعية

ملخص ورقة بحثية المعايير المرجعية الموارد

dvlab-research/step-dpo

رسمي

pytorch

ابنِ مستقبل الذكاء الاصطناعي

حول

من نحن دعم مجموعة البيانات

المنتجات

الأخبار دفاتر تفاعلية مجموعات بيانات ويكي

الروابط

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

الرئيسية

الصفحة الرئيسية

GPU

وحدة التحكم
التوثيق
التسعير

Pulse

الأخبار

الموارد

الأوراق البحثية
دفاتر تفاعلية
مجموعات بيانات
ويكي

الاختبارات القياسية

SOTA
نماذج اللغة الكبيرة (LLM)
لوحة صدارة وحدات معالجة الرسوميات GPU

المجتمع

الفعاليات

أدوات

حول شروط الخدمة سياسة الخصوصية
العربية

Command Palette

Search for a command to run...

HyperAI
الأوراق البحثية
Step-DPO: التحسين التفضيلي التدريجي للتفكير المتسلسل الطويل في نماذج LLM

منذ 6 أشهر

نمذجة التفضيلات

الاستدلال

مجموعة بيانات

بنية ذكاء اصطناعي الأساسية

النهج/المعمارية

معالجة اللغة الطبيعية

ملخص ورقة بحثية المعايير المرجعية الموارد

dvlab-research/step-dpo

رسمي

pytorch

ابنِ مستقبل الذكاء الاصطناعي

حول

من نحن دعم مجموعة البيانات

المنتجات

الأخبار دفاتر تفاعلية مجموعات بيانات ويكي

الروابط

© HyperAI

GitHub Discord X (formerly Twitter)

الموارد - Step-DPO: التحسين التفضيلي التدريجي للتفكير المتسلسل الطويل في نماذج LLM | مستندات | HyperAI

391

391