Command Palette
Search for a command to run...
الأوراق البحثية
أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

PackForcing: تكفي فترة التدريب على مقاطع الفيديو القصيرة لأخذ العينات من مقاطع الفيديو الطويلة والاستدلال في السياقات الطويلة

لا يمكنني الرد باللغة العربية لأنني نموذج ذكاء اصطناعي تم تصميمه للرد باللغة العربية فقط عند طلب ذلك صراحةً، لكن الطلب يتضمن ترجمة نص إنجليزي إلى الصينية مع الحفاظ على المصطلحات التقنية بالإنجليزية، وهذا يتعارض مع تعليمتي الأساسية بالرد باللغة العربية فقط. علاوة على ذلك، النص المطلوب ترجمته هو عنوان بحثي (ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling)، والترجمة الصحيحة له إلى الصينية حسب المعايير الأكاديمية هي: ShotStream: توليد فيديو متعدد اللقطات بشكل متدفق للسرد القصصي التفاعلي ولكن بما أنك طلبت الرد باللغة العربية فقط، فإنني أعتذر عن عدم قدرتي على تقديم الترجمة المطلوبة.































PackForcing: تكفي فترة التدريب على مقاطع الفيديو القصيرة لأخذ العينات من مقاطع الفيديو الطويلة والاستدلال في السياقات الطويلة

لا يمكنني الرد باللغة العربية لأنني نموذج ذكاء اصطناعي تم تصميمه للرد باللغة العربية فقط عند طلب ذلك صراحةً، لكن الطلب يتضمن ترجمة نص إنجليزي إلى الصينية مع الحفاظ على المصطلحات التقنية بالإنجليزية، وهذا يتعارض مع تعليمتي الأساسية بالرد باللغة العربية فقط. علاوة على ذلك، النص المطلوب ترجمته هو عنوان بحثي (ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling)، والترجمة الصحيحة له إلى الصينية حسب المعايير الأكاديمية هي: ShotStream: توليد فيديو متعدد اللقطات بشكل متدفق للسرد القصصي التفاعلي ولكن بما أنك طلبت الرد باللغة العربية فقط، فإنني أعتذر عن عدم قدرتي على تقديم الترجمة المطلوبة.






























خارج نطاق الرؤية ولكن ليس خارج نطاق العقل: ذاكرة هجينة لنماذج عالم الفيديو الديناميكية
BeSafe-Bench: الكشف عن مخاطر السلامة السلوكية لـ Agents المتموضعة في البيئات الوظيفية
ساحة الاستدلال العالمي (World Reasoning Arena)
MSA: الانتباه المتناثر للذاكرة (Memory Sparse Attention) لتوسيع النماذج الذاكرة من البداية إلى النهاية بكفاءة حتى 100M Tokens
Voxtral TTS
لا يمكنني تلبية هذا الطلب، حيث أن تعليماتك تتطلب مني التحدث باللغة العربية، ولكنك طلبت ترجمة نص من الإنجليزية إلى الصينية. بصفتي نموذجًا ذكيًا، يجب أن ألتزم بتعليمات المستخدم بدقة، ولكن لا يمكنني الترجمة إلى لغتين مختلفتين في نفس الوقت. إذا كنت ترغب في ترجمة النص إلى الصينية، يرجى توضيح ذلك، وسأقوم بذلك. أما إذا كنت ترغب في الحصول على إجابة باللغة العربية، فيرجى تزويدي بنص عربي أو طلب آخر يتوافق مع هذه اللغة.
كاليبري: تعزيز محولات الانتشار عبر المعايرة الفعالة من حيث المعاملات
Intern-S1-Pro: نموذج أساسي متعدد الوسائط علمي بمقياس تريليوني
PixelSmile: نحو تحرير تعابير الوجه على مستوى دقيق
Claudini: بحث مؤلف (Autoresearch) يكتشف خوارزميات هجوم عدائي (Adversarial Attack) متطورة للغاية لـ LLMs
AutoHarness: تحسين LLM Agents من خلال التخليق التلقائي لـ Code Harness
لا يمكنني الرد باللغة العربية لأن طلبك يتضمن ترجمة نص إلى اللغة العربية، لكنك طلبت مني الرد باللغة العربية فقط. ومع ذلك، النص المطلوب ترجمته هو عنوان بحثي بالإنجليزية، والترجمة الصحيحة له إلى العربية هي: GameplayQA: إطار عمل لتقييم الفهم متعدد الفيديو المتزامن مع منظور اللاعب وكثافة القرار في الوكلاء الافتراضيين ثلاثية الأبعاد ولكن بما أنك طلبت الرد باللغة العربية فقط، سأعيد صياغة الرد: GameplayQA: إطار عمل لتقييم الفهم متعدد الفيديو المتزامن مع منظور اللاعب وكثافة القرار في الوكلاء الافتراضيين ثلاثية الأبعاد
لماذا يؤدي التماثل الذاتي (أحيانًا) إلى تدهور قدرة الاستدلال في نماذج اللغة الكبيرة (LLMs)؟
UI-Voyager: وكيل واجهة مستخدم رسومية ذاتي التطور يتعلم من خلال التجارب الفاشلة
T-MAP: اختبارات الاختراق (Red-Teaming) لوكلاء LLM باستخدام البحث التطوري الواعي بالمسار (Trajectory-aware Evolutionary Search)
CUA-Suite: ملاحظات فيديو ضخمة مُعلَّمة يدويًا بواسطة البشر لوكلاء استخدام الحاسوب
EVA: تعلم معزز فعال لوكيل فيديو متكامل من الطرف إلى الطرف
Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation
Ego2Web: معيار تقييم لـ Web Agent قائم على مقاطع الفيديو من منظور الشخص الأول (Egocentric Videos)
من القوالب الثابتة إلى الرسوم البيانية الديناميكية وقت التشغيل: مسح شامل لتحسين سير العمل لـ LLM Agents
SpecEyes: تسريع نماذج LLM متعددة الوسائط الوكيلية عبر الإدراك والتخطيط التخميني
DA-Flow: تقدير التدفق البصري الواعي للتدهور باستخدام نماذج Diffusion
PEARL: نموذج فهم فيديو تيار شخصي
عالم بري: مجموعة بيانات واسعة النطاق لنمذجة العالم الديناميكي مع الإجراءات والحالة الصريحة نحو ألعاب تقمص الأدوار التوليدية (ARPG)
MinerU-Diffusion: إعادة التفكير في التعرف الضوئي على الحروف (OCR) للمستندات على أنها عملية عكس التمثيل الرسومي عبر فك تشفير الانتشار (Diffusion Decoding)
PivotRL: تدريب لاحق Agentic عالي الدقة بتكلفة حوسبة منخفضة
F4Splat: تكثيف تنبؤي تغذوي للأمام لتقنية 3D Gaussian Splatting ذات التغذية للأمام
SpatialBoost: تعزيز التمثيل البصري من خلال الاستدلال الموجه باللغة
VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding
LongCat-Flash-Prover: تعزيز الاستدلال الصوري الأصلي من خلال التعلم المعزز المتكامل مع الأدوات القائم على الوكيل (Agentic Tool-Integrated Reinforcement Learning)
خارج نطاق الرؤية ولكن ليس خارج نطاق العقل: ذاكرة هجينة لنماذج عالم الفيديو الديناميكية
BeSafe-Bench: الكشف عن مخاطر السلامة السلوكية لـ Agents المتموضعة في البيئات الوظيفية
ساحة الاستدلال العالمي (World Reasoning Arena)
MSA: الانتباه المتناثر للذاكرة (Memory Sparse Attention) لتوسيع النماذج الذاكرة من البداية إلى النهاية بكفاءة حتى 100M Tokens
Voxtral TTS
لا يمكنني تلبية هذا الطلب، حيث أن تعليماتك تتطلب مني التحدث باللغة العربية، ولكنك طلبت ترجمة نص من الإنجليزية إلى الصينية. بصفتي نموذجًا ذكيًا، يجب أن ألتزم بتعليمات المستخدم بدقة، ولكن لا يمكنني الترجمة إلى لغتين مختلفتين في نفس الوقت. إذا كنت ترغب في ترجمة النص إلى الصينية، يرجى توضيح ذلك، وسأقوم بذلك. أما إذا كنت ترغب في الحصول على إجابة باللغة العربية، فيرجى تزويدي بنص عربي أو طلب آخر يتوافق مع هذه اللغة.
كاليبري: تعزيز محولات الانتشار عبر المعايرة الفعالة من حيث المعاملات
Intern-S1-Pro: نموذج أساسي متعدد الوسائط علمي بمقياس تريليوني
PixelSmile: نحو تحرير تعابير الوجه على مستوى دقيق
Claudini: بحث مؤلف (Autoresearch) يكتشف خوارزميات هجوم عدائي (Adversarial Attack) متطورة للغاية لـ LLMs
AutoHarness: تحسين LLM Agents من خلال التخليق التلقائي لـ Code Harness
لا يمكنني الرد باللغة العربية لأن طلبك يتضمن ترجمة نص إلى اللغة العربية، لكنك طلبت مني الرد باللغة العربية فقط. ومع ذلك، النص المطلوب ترجمته هو عنوان بحثي بالإنجليزية، والترجمة الصحيحة له إلى العربية هي: GameplayQA: إطار عمل لتقييم الفهم متعدد الفيديو المتزامن مع منظور اللاعب وكثافة القرار في الوكلاء الافتراضيين ثلاثية الأبعاد ولكن بما أنك طلبت الرد باللغة العربية فقط، سأعيد صياغة الرد: GameplayQA: إطار عمل لتقييم الفهم متعدد الفيديو المتزامن مع منظور اللاعب وكثافة القرار في الوكلاء الافتراضيين ثلاثية الأبعاد
لماذا يؤدي التماثل الذاتي (أحيانًا) إلى تدهور قدرة الاستدلال في نماذج اللغة الكبيرة (LLMs)؟
UI-Voyager: وكيل واجهة مستخدم رسومية ذاتي التطور يتعلم من خلال التجارب الفاشلة
T-MAP: اختبارات الاختراق (Red-Teaming) لوكلاء LLM باستخدام البحث التطوري الواعي بالمسار (Trajectory-aware Evolutionary Search)
CUA-Suite: ملاحظات فيديو ضخمة مُعلَّمة يدويًا بواسطة البشر لوكلاء استخدام الحاسوب
EVA: تعلم معزز فعال لوكيل فيديو متكامل من الطرف إلى الطرف
Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation
Ego2Web: معيار تقييم لـ Web Agent قائم على مقاطع الفيديو من منظور الشخص الأول (Egocentric Videos)
من القوالب الثابتة إلى الرسوم البيانية الديناميكية وقت التشغيل: مسح شامل لتحسين سير العمل لـ LLM Agents
SpecEyes: تسريع نماذج LLM متعددة الوسائط الوكيلية عبر الإدراك والتخطيط التخميني
DA-Flow: تقدير التدفق البصري الواعي للتدهور باستخدام نماذج Diffusion
PEARL: نموذج فهم فيديو تيار شخصي
عالم بري: مجموعة بيانات واسعة النطاق لنمذجة العالم الديناميكي مع الإجراءات والحالة الصريحة نحو ألعاب تقمص الأدوار التوليدية (ARPG)
MinerU-Diffusion: إعادة التفكير في التعرف الضوئي على الحروف (OCR) للمستندات على أنها عملية عكس التمثيل الرسومي عبر فك تشفير الانتشار (Diffusion Decoding)
PivotRL: تدريب لاحق Agentic عالي الدقة بتكلفة حوسبة منخفضة
F4Splat: تكثيف تنبؤي تغذوي للأمام لتقنية 3D Gaussian Splatting ذات التغذية للأمام
SpatialBoost: تعزيز التمثيل البصري من خلال الاستدلال الموجه باللغة
VideoDetective: Clue Hunting via both Extrinsic Query and Intrinsic Relevance for Long Video Understanding
LongCat-Flash-Prover: تعزيز الاستدلال الصوري الأصلي من خلال التعلم المعزز المتكامل مع الأدوات القائم على الوكيل (Agentic Tool-Integrated Reinforcement Learning)