Command Palette
Search for a command to run...
الأوراق البحثية
أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

إعادة التفكير في أهداف التدريب، المعماريات، وجودة البيانات للتعزيز الصوتي الشامل

الغاوسيات ثلاثية الأبعاد التوليدية مع التحكم في الكثافة المتعلمة































إعادة التفكير في أهداف التدريب، المعماريات، وجودة البيانات للتعزيز الصوتي الشامل

الغاوسيات ثلاثية الأبعاد التوليدية مع التحكم في الكثافة المتعلمة






























TADA: إطار توليد لنمذجة الكلام من خلال المحاذاة المزدوجة النصية والصوتية
ما وراء الكلمات المنعزلة: فرشاة الانتشار لتوليد أسطر النصوص المكتوبة بخط اليد
gsplat: مكتبة مفتوحة المصدر للـ Gaussian Splatting
OmniVideo-100K: مجموعة بيانات للاستدلال السمعي البصري من خلال السيناريوهات المهيكلة وسلاسل الأدلة
OPEN-SWE-TRACES: دفع عجلة التطوير في مجال التذليل متعدد اللغات ثنائي النمط لوكلاء الهندسة البرمجية الشرح والملاحظات الأكاديمية:
تعيين الائتمان مع إعادة التعيين في استنتاج نماذج اللغة
أعمال OCR غير محدودة: مرحبًا بعصر التفكيك طويل المدى بنمط الضربة الواحدة
PlanBench-XL: تقييم التخطيط طويل المدى لوكلاء استخدام أدوات LLM Agents في النظم الإيكولوجية للأدوات واسعة النطاق
OpenRath: حالة وقت التشغيل القائمة على الجلسة لأنظمة الـ Agent
EvoEmbedding: تمثيلات قابلة للتطور لاسترجاع السياق الطويل والذاكرة الوكيلية
التعلم من أخطائك الخاصة: بناء مسارات تأملية مصغرة قابلة للتعلم للتقطير الذاتي
نماذج فعل العالم: مراجعة
KaLM-Reranker-V1: سريع ولكن ليس تفاعلاً متأخراً لإعادة ترتيب المستندات المضغوطة
إعادة النظر في انحياز الانكماش أثناء التدريب المسبق لنماذج اللغات الكبيرة FP4: الأصل الهندسي، التأثير الجهازي، ووصفة UFP4
HydraHead: من اللامتماثلة الوظيفية على مستوى الرأس إلى التهجين المتخصص للانتباه
RadImageNet-VQA: مجموعة بيانات ضخمة للأشعة المقطعية والرنين المغناطيسي للإجابة على الأسئلة البصرية في الأشعة الطبية
تدريب وكلاء هندسة البرمجيات والمحققين باستخدام SWE-Gym
MAKIEVAL: إطار عمل تلقائي متعدد اللغات يعتمد على ويكي بيانات لتقييم الوعي الثقافي في نماذج اللغة الكبيرة
GeneralVLA-2: إعادة بناء واعٍ بالهندسة وذاكرة مُوجَّهة لتخطيط الروبوت
الحجب التأملي متعدد الجولات يُحفز الاستدلال في نماذج الانتشار القناعية
BrainG3N: أداة ترميز ثنائية الغرض لتوليد صور الرنين المغناطيسي للدماغ ثلاثي الأبعاد القابلة للتحكم
GateMem: تقييم حوكمة الذاكرة في agents متعددي الممثلين للذاكرة المشتركة
MemSlides: إطار عمل Agent المدفوع بالذاكرة الهرمية لتوليد الشرائح المخصصة مع المراجعة المحلية متعددة الجولات
PerceptionDLM: الإدراك المتوازي للمناطق باستخدام نماذج الانتشار اللغوي متعددة الوسائط
نماذج العالم الشيفرية للعب الألعاب العام
ما وراء لوحات المتصدرين الثابتة: الصدق التنبؤي لتقييم LLM Agents
S-Agent: الاستخدام المكاني للأدوات يُحفز الاستدلال للذكاء المكاني
Multi-LCB: توسيع LiveCodeBench إلى لغات برمجة متعددة
التعلم الروبوتي الوكيل المرحي
DragMesh-2: تفاعل يد ماهر مع الأجسام المفصلية واقعي فيزيائياً
TADA: إطار توليد لنمذجة الكلام من خلال المحاذاة المزدوجة النصية والصوتية
ما وراء الكلمات المنعزلة: فرشاة الانتشار لتوليد أسطر النصوص المكتوبة بخط اليد
gsplat: مكتبة مفتوحة المصدر للـ Gaussian Splatting
OmniVideo-100K: مجموعة بيانات للاستدلال السمعي البصري من خلال السيناريوهات المهيكلة وسلاسل الأدلة
OPEN-SWE-TRACES: دفع عجلة التطوير في مجال التذليل متعدد اللغات ثنائي النمط لوكلاء الهندسة البرمجية الشرح والملاحظات الأكاديمية:
تعيين الائتمان مع إعادة التعيين في استنتاج نماذج اللغة
أعمال OCR غير محدودة: مرحبًا بعصر التفكيك طويل المدى بنمط الضربة الواحدة
PlanBench-XL: تقييم التخطيط طويل المدى لوكلاء استخدام أدوات LLM Agents في النظم الإيكولوجية للأدوات واسعة النطاق
OpenRath: حالة وقت التشغيل القائمة على الجلسة لأنظمة الـ Agent
EvoEmbedding: تمثيلات قابلة للتطور لاسترجاع السياق الطويل والذاكرة الوكيلية
التعلم من أخطائك الخاصة: بناء مسارات تأملية مصغرة قابلة للتعلم للتقطير الذاتي
نماذج فعل العالم: مراجعة
KaLM-Reranker-V1: سريع ولكن ليس تفاعلاً متأخراً لإعادة ترتيب المستندات المضغوطة
إعادة النظر في انحياز الانكماش أثناء التدريب المسبق لنماذج اللغات الكبيرة FP4: الأصل الهندسي، التأثير الجهازي، ووصفة UFP4
HydraHead: من اللامتماثلة الوظيفية على مستوى الرأس إلى التهجين المتخصص للانتباه
RadImageNet-VQA: مجموعة بيانات ضخمة للأشعة المقطعية والرنين المغناطيسي للإجابة على الأسئلة البصرية في الأشعة الطبية
تدريب وكلاء هندسة البرمجيات والمحققين باستخدام SWE-Gym
MAKIEVAL: إطار عمل تلقائي متعدد اللغات يعتمد على ويكي بيانات لتقييم الوعي الثقافي في نماذج اللغة الكبيرة
GeneralVLA-2: إعادة بناء واعٍ بالهندسة وذاكرة مُوجَّهة لتخطيط الروبوت
الحجب التأملي متعدد الجولات يُحفز الاستدلال في نماذج الانتشار القناعية
BrainG3N: أداة ترميز ثنائية الغرض لتوليد صور الرنين المغناطيسي للدماغ ثلاثي الأبعاد القابلة للتحكم
GateMem: تقييم حوكمة الذاكرة في agents متعددي الممثلين للذاكرة المشتركة
MemSlides: إطار عمل Agent المدفوع بالذاكرة الهرمية لتوليد الشرائح المخصصة مع المراجعة المحلية متعددة الجولات
PerceptionDLM: الإدراك المتوازي للمناطق باستخدام نماذج الانتشار اللغوي متعددة الوسائط
نماذج العالم الشيفرية للعب الألعاب العام
ما وراء لوحات المتصدرين الثابتة: الصدق التنبؤي لتقييم LLM Agents
S-Agent: الاستخدام المكاني للأدوات يُحفز الاستدلال للذكاء المكاني
Multi-LCB: توسيع LiveCodeBench إلى لغات برمجة متعددة
التعلم الروبوتي الوكيل المرحي
DragMesh-2: تفاعل يد ماهر مع الأجسام المفصلية واقعي فيزيائياً