Command Palette
Search for a command to run...
الأوراق البحثية
أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات































Show-o2: نماذج متعددة الوسائط الموحدة المحسنة الأصلية

إعادة النظر في التعلم التعزيزي للمنطق اللغوي الكبير من منظور متعدد المجالات






























RAPTOR: تضمينات قابلة للتوسع بدون تدريب لحجم الطبي ثلاثي الأبعاد باستخدام نماذج الأساس المدربة مسبقًا ثنائية الأبعاد
EmoNet-Voice: معيار دقيق مُدقَّق من قبل خبراء للكشف عن العواطف في الكلام
s1: تكبير بسيط في وقت الاختبار
Search-o1: نماذج تفكير كبيرة مُحسَّنة بالبحث العقلي
LLaVA-Mini: نماذج متعددة الوسائط كبيرة وكفؤة للصور والفيديوهات بتوكن بصرى واحد
MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع
ShowUI: نموذج واحد لرؤية ولغة وعمل لوكيل بصرى واجهة المستخدم الرسومية
OS-ATLAS: نموذج إجراءات أساسي للوكلاء الشاملين واجهة المستخدم الرسومية
بطاقة نظام GPT-4o
SAM2Long: تحسين SAM 2 للتقسيم الطويل للفيديوهات باستخدام شجرة ذاكرة خالية من التدريب
أريا: نموذج مفتوح متعدد الوسائط ونوعي مزيج من الخبراء
Qwen2-VL: تحسين إدراك النموذج البصري-اللغوي للعالم بجميع الدقة
VGGT: محول الهندسة المرئية المُرتكز على الأرضيات
توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة
إعادة النظر في قدرة النماذج اللغوية الكبيرة على التعميم التركيبي مع مراعاة قدرتها على اتباع التعليمات
الوكلاء الماديون على الويب: ربط المجالات المادية الرقمية لتحقيق ذكاء وكيل متكامل
المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر
نظام BUT للمحطة MLC-SLM
GenRecal: التوليد بعد إعادة الت headlcalibration من النماذج الكبيرة إلى الصغيرة للرؤية واللغة
التفكير الأولي: النماذج الأولية كأساس للتفكير القابل للتعميم في النماذج اللغوية الكبيرة (LLMs)
Sekai: مجموعة بيانات فيديو لاستكشاف العالم
QFFT، التعديل الدقيق بدون أسئلة للمنطق التكيفي
هل يمكن للنماذج اللغوية الكبيرة توليد حالات اختبار عالية الجودة للمشاكل الخوارزمية؟ TestCase-Eval: تقييم منهجي لتغطية الأخطاء وكشفها
AceReason-Nemotron 1.1: تقدم في استدلال الرياضيات والبرمجة من خلال التكامل بين التعلم المعزز والتحويلات الدقيقة
ستريم-أومني: التفاعلات متعددة الوسائط المتزامنة باستخدام نموذج اللغة-الرؤية-الكلام الكبير
التعلم الآلي لتحسين كفاءة التصوير الطبي ثلاثي الأبعاد
توسيع حسابات وقت الاختبار للوكلاء ذوي النماذج اللغوية الكبيرة (LLM)
TaskCraft: التوليد الآلي للمهام الوكيلة
انتظر، لا نحتاج إلى "الانتظار"! إزالة رموز التفكير تحسن كفاءة الاستدلال
Ego-R1: سلسلة التفكير بالأدوات لمنطق الفيديو الذاتي المطول للغاية
RAPTOR: تضمينات قابلة للتوسع بدون تدريب لحجم الطبي ثلاثي الأبعاد باستخدام نماذج الأساس المدربة مسبقًا ثنائية الأبعاد
EmoNet-Voice: معيار دقيق مُدقَّق من قبل خبراء للكشف عن العواطف في الكلام
s1: تكبير بسيط في وقت الاختبار
Search-o1: نماذج تفكير كبيرة مُحسَّنة بالبحث العقلي
LLaVA-Mini: نماذج متعددة الوسائط كبيرة وكفؤة للصور والفيديوهات بتوكن بصرى واحد
MAmmoTH-VL: استخلاص التفكير متعدد الوسائط من خلال ضبط التعليم بالتعليمات على نطاق واسع
ShowUI: نموذج واحد لرؤية ولغة وعمل لوكيل بصرى واجهة المستخدم الرسومية
OS-ATLAS: نموذج إجراءات أساسي للوكلاء الشاملين واجهة المستخدم الرسومية
بطاقة نظام GPT-4o
SAM2Long: تحسين SAM 2 للتقسيم الطويل للفيديوهات باستخدام شجرة ذاكرة خالية من التدريب
أريا: نموذج مفتوح متعدد الوسائط ونوعي مزيج من الخبراء
Qwen2-VL: تحسين إدراك النموذج البصري-اللغوي للعالم بجميع الدقة
VGGT: محول الهندسة المرئية المُرتكز على الأرضيات
توليد الرموز متعددة الدورات من خلال المكافآت الأحادية الخطوة
إعادة النظر في قدرة النماذج اللغوية الكبيرة على التعميم التركيبي مع مراعاة قدرتها على اتباع التعليمات
الوكلاء الماديون على الويب: ربط المجالات المادية الرقمية لتحقيق ذكاء وكيل متكامل
المكافآت الواعية بالمعنى للتدريب المفتوح R1 في التوليد الحر
نظام BUT للمحطة MLC-SLM
GenRecal: التوليد بعد إعادة الت headlcalibration من النماذج الكبيرة إلى الصغيرة للرؤية واللغة
التفكير الأولي: النماذج الأولية كأساس للتفكير القابل للتعميم في النماذج اللغوية الكبيرة (LLMs)
Sekai: مجموعة بيانات فيديو لاستكشاف العالم
QFFT، التعديل الدقيق بدون أسئلة للمنطق التكيفي
هل يمكن للنماذج اللغوية الكبيرة توليد حالات اختبار عالية الجودة للمشاكل الخوارزمية؟ TestCase-Eval: تقييم منهجي لتغطية الأخطاء وكشفها
AceReason-Nemotron 1.1: تقدم في استدلال الرياضيات والبرمجة من خلال التكامل بين التعلم المعزز والتحويلات الدقيقة
ستريم-أومني: التفاعلات متعددة الوسائط المتزامنة باستخدام نموذج اللغة-الرؤية-الكلام الكبير
التعلم الآلي لتحسين كفاءة التصوير الطبي ثلاثي الأبعاد
توسيع حسابات وقت الاختبار للوكلاء ذوي النماذج اللغوية الكبيرة (LLM)
TaskCraft: التوليد الآلي للمهام الوكيلة
انتظر، لا نحتاج إلى "الانتظار"! إزالة رموز التفكير تحسن كفاءة الاستدلال
Ego-R1: سلسلة التفكير بالأدوات لمنطق الفيديو الذاتي المطول للغاية