Command Palette
Search for a command to run...
الأوراق البحثية
أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

SemanticGen: توليد الفيديو في الفضاء المعنوي

التخطيط التلقائي للجراحة الإشعاعية الاستوائية باستخدام وكيل نموذج لغوي كبير يستند إلى التفكير مع مشاركة الإنسان































SemanticGen: توليد الفيديو في الفضاء المعنوي

التخطيط التلقائي للجراحة الإشعاعية الاستوائية باستخدام وكيل نموذج لغوي كبير يستند إلى التفكير مع مشاركة الإنسان






























LongVideoAgent: الاستنتاج متعدد الوكلاء مع مقاطع الفيديو الطويلة
GenEnv: تطوير تآزري مُتَنَاسِقٌ مع صعوبة بين وكلاء LLM ومحاكيات البيئة
WorldWarp: انتشار الهندسة ثلاثية الأبعاد باستخدام تفتيت الفيديو غير المتزامن
LoGoPlanner: سياسة توجيه مبنية على التموضع مع هندسة بصرية واعية بالقياس
هل يمكن لـ LLMs تقدير صعوبات الطلاب؟ مواءمة الصعوبة بين الإنسان والذكاء الاصطناعي باستخدام محاكاة الكفاءة لتوقع صعوبة البنود
QuCo-RAG: قياس عدم اليقين من مجموعة التدريب المسبق لتوليد التوليد المدعوم بالاسترجاع الديناميكي
فرضية Prism: تحقيق التكامل بين التمثيلات الدلالية والتمثيلات البكسلية من خلال التشفير التلقائي الموحّد
Med-Banana-50K: مجموعة بيانات كبيرة متعددة الوسائط للتعديل الصوري الطبي الموجه بالنص
كاسكاد: طريقة عملية للانتباه النادر لاستدلال نماذج لغة كبيرة ذات سياق طويل
GLM-4.5: نماذج أساسية عاملة، وتحليلية، وبرمجة (ARC)
GroundingME: كشف الفجوة المرتبطة بالربط البصري في MLLMs من خلال التقييم متعدد الأبعاد
كلا من الدلالة وإعادة البناء مهمان: جعل مشفرات التمثيل جاهزة لإنشاء الصور من النص وتحريرها
4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي
Seed-Prover 1.5: إتقان إثبات النظريات على مستوى البكالوريوس من خلال التعلم من الخبرة
عندما يلتقي التفكير بقوانينه
استكشاف الذكاء العام العلمي لـ LLMs باستخدام سير عمل متماشية مع العلماء
K2-V2: نموذج لغوي ضخم مفتوح بالكامل بزاوية 360 درجة، مُعزز بالاستنتاج
VenusBench-GD: معيار رسومي متعدد المنصات شامِل للمهام المختلفة للتثبيت
MCIF: معيار متابعة التعليمات متعدد الوسائط عبر اللغات من خلال المحاضرات العلمية
NitroGen: نموذج أساسي مفتوح للوكالات اللعبية الشاملة
خلايا H: حول الوجود، التأثير، والأصل للخلايا المرتبطة بالهلوسات في النماذج اللغوية الكبيرة
العالم هو لوحتك: رسم أحداث قابلة للترميز باستخدام صور مرجعية، ومدارات، ونصوص
الكيميائي: فتح الكفاءة في تدريب نماذج التوليد النصي-الصوري من خلال اختيار بيانات الميتا-مُشتق
العمق في أي مناظر دائرية: نموذج أساسي لتقدير العمق في المناظر الدائرية
إعادة التركيز التوليدية: التحكم المرن في التركيز غير المثالي من صورة واحدة
StereoPilot: تعلّم التحويل المُوحَّد والكَفِيِّ للصورة الثلاثية عبر الاحتمالات التوليدية
تنبؤ التضمين التالي يُحدث مُتعلّمين بصرية قويين
الذكاء الاصطناعي الوكيل: استكشاف آفاق التفاعل متعدد الوسائط
الرياضياتي الذكي كشريك في دفع التقدم في الاكتشاف الرياضي – دراسة حالة في نظرية التماثل
GenEval 2: معالجة الانزلاق المعياري في تقييم النص إلى الصورة
LongVideoAgent: الاستنتاج متعدد الوكلاء مع مقاطع الفيديو الطويلة
GenEnv: تطوير تآزري مُتَنَاسِقٌ مع صعوبة بين وكلاء LLM ومحاكيات البيئة
WorldWarp: انتشار الهندسة ثلاثية الأبعاد باستخدام تفتيت الفيديو غير المتزامن
LoGoPlanner: سياسة توجيه مبنية على التموضع مع هندسة بصرية واعية بالقياس
هل يمكن لـ LLMs تقدير صعوبات الطلاب؟ مواءمة الصعوبة بين الإنسان والذكاء الاصطناعي باستخدام محاكاة الكفاءة لتوقع صعوبة البنود
QuCo-RAG: قياس عدم اليقين من مجموعة التدريب المسبق لتوليد التوليد المدعوم بالاسترجاع الديناميكي
فرضية Prism: تحقيق التكامل بين التمثيلات الدلالية والتمثيلات البكسلية من خلال التشفير التلقائي الموحّد
Med-Banana-50K: مجموعة بيانات كبيرة متعددة الوسائط للتعديل الصوري الطبي الموجه بالنص
كاسكاد: طريقة عملية للانتباه النادر لاستدلال نماذج لغة كبيرة ذات سياق طويل
GLM-4.5: نماذج أساسية عاملة، وتحليلية، وبرمجة (ARC)
GroundingME: كشف الفجوة المرتبطة بالربط البصري في MLLMs من خلال التقييم متعدد الأبعاد
كلا من الدلالة وإعادة البناء مهمان: جعل مشفرات التمثيل جاهزة لإنشاء الصور من النص وتحريرها
4D-RGPT: نحو فهم مستوى المنطقة في الأبعاد الأربعة من خلال التقطيع الحسي
Seed-Prover 1.5: إتقان إثبات النظريات على مستوى البكالوريوس من خلال التعلم من الخبرة
عندما يلتقي التفكير بقوانينه
استكشاف الذكاء العام العلمي لـ LLMs باستخدام سير عمل متماشية مع العلماء
K2-V2: نموذج لغوي ضخم مفتوح بالكامل بزاوية 360 درجة، مُعزز بالاستنتاج
VenusBench-GD: معيار رسومي متعدد المنصات شامِل للمهام المختلفة للتثبيت
MCIF: معيار متابعة التعليمات متعدد الوسائط عبر اللغات من خلال المحاضرات العلمية
NitroGen: نموذج أساسي مفتوح للوكالات اللعبية الشاملة
خلايا H: حول الوجود، التأثير، والأصل للخلايا المرتبطة بالهلوسات في النماذج اللغوية الكبيرة
العالم هو لوحتك: رسم أحداث قابلة للترميز باستخدام صور مرجعية، ومدارات، ونصوص
الكيميائي: فتح الكفاءة في تدريب نماذج التوليد النصي-الصوري من خلال اختيار بيانات الميتا-مُشتق
العمق في أي مناظر دائرية: نموذج أساسي لتقدير العمق في المناظر الدائرية
إعادة التركيز التوليدية: التحكم المرن في التركيز غير المثالي من صورة واحدة
StereoPilot: تعلّم التحويل المُوحَّد والكَفِيِّ للصورة الثلاثية عبر الاحتمالات التوليدية
تنبؤ التضمين التالي يُحدث مُتعلّمين بصرية قويين
الذكاء الاصطناعي الوكيل: استكشاف آفاق التفاعل متعدد الوسائط
الرياضياتي الذكي كشريك في دفع التقدم في الاكتشاف الرياضي – دراسة حالة في نظرية التماثل
GenEval 2: معالجة الانزلاق المعياري في تقييم النص إلى الصورة