التاريخ

منذ 9 أشهر

المؤسسة

رابط الورقة البحثية

الوسوم

تم اقتراح تحسين السياسة ثنائية الوضع (BPO) بشكل مشترك من قبل فريق Tencent Hunyuan والأكاديمية الصينية للعلوم في أغسطس 2025. وقد نُشرت نتائج البحث ذات الصلة في الورقة البحثية "R-4B: تحفيز قدرة التفكير التلقائي للأغراض العامة في أنظمة التعلم متعدد المستويات (MLLMs) من خلال التلدين ثنائي الوضع والتعلم المعزز".

BPO هي خوارزمية تعلّم معزز مصممة للتفكير الآلي. بخلاف أساليب التعلم المعزز الحالية التي تتطلب دوال مكافآت معقدة، أو تعتمد بشكل كبير على البيانات، أو تتأثر بحساسية المعاملات الفائقة، تستخدم BPO مكافآت رياضية بسيطة قائمة على القواعد. تُلزم هذه الطريقة بإدراج كلٍّ من أنماط التفكير وغير التفكير، مما يمنع تحيز النموذج نحو نمط معين أثناء تدريب التعلم المعزز.

استراتيجية متوسط السرعة (MVP)

يحقق MVP توليد الحركة بخطوة واحدة مع كل من القدرة التعبيرية العالية والحساب السريع للغاية من خلال نمذجة مجال السرعة المتوسط.

منذ 2 أشهر

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

يحل هذا النظام بفعالية التحديات الرئيسية في عملية المحاذاة الآمنة لـ LVLM.

منذ 3 أشهر

رسم شجرة فك تشفير رمز الرسالة المتفرقة

من خلال الاستفادة من التوازي في وحدة معالجة الرسومات لتوسيع شجرة فك التشفير بكفاءة، يتم تحقيق تحسين سريع وقابل للتوسع لمسار الاستدلال.

منذ 3 أشهر

كلب الصيد الكثيف

يُعد محرك البحث الكثيف مسؤولاً عن إيجاد الفقرات الأكثر صلة بدلالات الاستعلام بسرعة من مكتبة وثائق ضخمة، وهو المكون الأساسي لنظام توليد تحسين البحث.

منذ 2 أشهر

تعزيز الفكر الموجه

يمكن لتقنية GTR أن توجه عملية التفكير النموذجي في البيئات البصرية المعقدة وتمنع "انهيار الدماغ".

منذ 2 أشهر

التعلم أثناء النشر

LWD هو إطار عمل للتعلم المعزز على مستوى الأسطول من وضع عدم الاتصال إلى وضع الاتصال، والذي يمكّن الروبوتات ذات الأغراض العامة من جمع الخبرة باستمرار وتحقيق التطور الذاتي للسياسات.

منذ شهر واحد

وورلد جين

يتمتع برنامج WorldGen بالقدرة على إنشاء عوالم عرض في الوقت الفعلي موحدة هندسيًا وغنية بصريًا وعالية الكفاءة.

منذ 3 أشهر

تمريرة أمامية مُفككة (DePass)

تُستخدم DePass لتفسير نموذج Transformer عن طريق تحليل المرور الأمامي.

منذ 3 أشهر

حساء الخبراء في فئة SoCE

SoCE هو نموذج لتحسين النماذج يعتمد على آلية اختيار الخبراء التلقائية الواعية بالفئات ويتم دمجه مع مهام قياس الأداء المتعددة.

منذ 3 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

تحسين استراتيجية الوضع المزدوج BPO

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين استراتيجية الوضع المزدوج BPO

ذات صلة ويكي

استراتيجية متوسط السرعة (MVP)

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

رسم شجرة فك تشفير رمز الرسالة المتفرقة

كلب الصيد الكثيف

تعزيز الفكر الموجه

التعلم أثناء النشر

وورلد جين

تمريرة أمامية مُفككة (DePass)

حساء الخبراء في فئة SoCE

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تحسين استراتيجية الوضع المزدوج BPO

ذات صلة ويكي

استراتيجية متوسط السرعة (MVP)

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

رسم شجرة فك تشفير رمز الرسالة المتفرقة

كلب الصيد الكثيف

تعزيز الفكر الموجه

التعلم أثناء النشر

وورلد جين

تمريرة أمامية مُفككة (DePass)

حساء الخبراء في فئة SoCE

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

ذات صلة ويكي

استراتيجية متوسط السرعة (MVP)

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

رسم شجرة فك تشفير رمز الرسالة المتفرقة

كلب الصيد الكثيف

تعزيز الفكر الموجه

التعلم أثناء النشر

وورلد جين

تمريرة أمامية مُفككة (DePass)

حساء الخبراء في فئة SoCE

ذات صلة ويكي

استراتيجية متوسط السرعة (MVP)

طريقة مقارنة السلامة: تنبيهات السلامة البصرية المتوافقة بعمق

رسم شجرة فك تشفير رمز الرسالة المتفرقة

كلب الصيد الكثيف

تعزيز الفكر الموجه

التعلم أثناء النشر

وورلد جين

تمريرة أمامية مُفككة (DePass)

حساء الخبراء في فئة SoCE