Command Palette
Search for a command to run...
الأوراق البحثية
أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

GameWorld: نحو تقييم معياري وقابل للتحقق لـ Multimodal Game Agents

تحسين الصور متعددة الأطياف عبر المقاييس المختلفة باستخدام ScaleFormer ومعيار PanScale































GameWorld: نحو تقييم معياري وقابل للتحقق لـ Multimodal Game Agents

تحسين الصور متعددة الأطياف عبر المقاييس المختلفة باستخدام ScaleFormer ومعيار PanScale






























ParseBench: معيار تقييم لاستخراج وتحليل المستندات مخصص لـ AI Agents
وكيل ذكاء الذاكرة (Memory Intelligence Agent)
PROPELLA-1: تدوين المستندات متعدد الخصائص لتقييم وتنسيق بيانات LLM على نطاق واسع
الاستدلال الداخلي لفهم الوثائق المرئية ذات السياق الطويل (Long-Context)
TurboQuant: التكميم المتجهي عبر الإنترنت (Online Vector Quantization) مع معدل تشوه قريب من المثالية (Near-optimal Distortion Rate)
BERT-as-a-Judge: بديل قوي للطرق Lexical من أجل تقييم LLM فعال يعتمد على Reference
SPPO: PPO على مستوى التسلسل لمهام الاستدلال طويلة المدى (Long-Horizon Reasoning Tasks)
اختبار تورينج على الشاشة: Benchmark لتقييم مدى Humanization لـ Mobile GUI Agent
Audio-Omni: توسيع فهم Multi-modal إلى توليد وتحرير Audio متعدد الاستخدامات
إعادة التفكير في عملية On-Policy Distillation للنماذج اللغوية الكبيرة (Large Language Models): الظواهر، الآليات، والوصفة المقترحة.
KnowRL: تعزيز قدرة الـ LLM على الـ Reasoning عبر الـ Reinforcement Learning باستخدام توجيهات الـ Minimal-Sufficient Knowledge.
Uni-ViGU: نحو توحيد Video Generation و Understanding عبر A Diffusion-Based Video Generator
ClawGUI: إطار عمل موحد لـ Training و Evaluating و Deploying الـ GUI Agents
Attention Sink في نماذج Transformer: مسح شامل حول الاستخدام، والتفسير، والتخفيف
OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction
الماضي ليس ماضياً: تشكيل المكافأة الديناميكي المعزز بالذاكرة (Memory-Enhanced Dynamic Reward Shaping)
QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
ELT: محولات متكررة مرنة للتوليد البصري
ECHO: توليد تقارير الأشعة السينية للصدر بكفاءة باستخدام One-step Block Diffusion
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
التقرير التقني لـ EXAONE 4.5
RefineAnything: تحسين متعدد الوسائط خاص بالمناطق للحصول على تفاصيل محلية مثالية
FORGE: تقييم متعدد الوسائط دقيق لسيناريوهات التصنيع
WildDet3D: توسيع نطاق Promptable 3D Detection في البيئات البرية (in the Wild)
Autoreason: التحسين الذاتي الذي يعرف متى يتوقف
ActiveGlasses: تعلم المناولة عبر الرؤية النشطة من خلال استعراضات البشر من منظور الشخص الأول (Ego-centric)
MegaStyle: بناء مجموعة بيانات Style متنوعة وقابلة للتوسع عبر Consistent Text-to-Image Style Mapping
عندما تتحدث الأرقام: مواءمة الأرقام النصية مع الحالات المرئية في نماذج Text-to-Video Diffusion Models
HY-Embodied-0.5: Embodied Foundation Models لـ Real-World Agents
ClawBench: هل تستطيع AI Agents إكمال المهام اليومية عبر الإنترنت؟
ParseBench: معيار تقييم لاستخراج وتحليل المستندات مخصص لـ AI Agents
وكيل ذكاء الذاكرة (Memory Intelligence Agent)
PROPELLA-1: تدوين المستندات متعدد الخصائص لتقييم وتنسيق بيانات LLM على نطاق واسع
الاستدلال الداخلي لفهم الوثائق المرئية ذات السياق الطويل (Long-Context)
TurboQuant: التكميم المتجهي عبر الإنترنت (Online Vector Quantization) مع معدل تشوه قريب من المثالية (Near-optimal Distortion Rate)
BERT-as-a-Judge: بديل قوي للطرق Lexical من أجل تقييم LLM فعال يعتمد على Reference
SPPO: PPO على مستوى التسلسل لمهام الاستدلال طويلة المدى (Long-Horizon Reasoning Tasks)
اختبار تورينج على الشاشة: Benchmark لتقييم مدى Humanization لـ Mobile GUI Agent
Audio-Omni: توسيع فهم Multi-modal إلى توليد وتحرير Audio متعدد الاستخدامات
إعادة التفكير في عملية On-Policy Distillation للنماذج اللغوية الكبيرة (Large Language Models): الظواهر، الآليات، والوصفة المقترحة.
KnowRL: تعزيز قدرة الـ LLM على الـ Reasoning عبر الـ Reinforcement Learning باستخدام توجيهات الـ Minimal-Sufficient Knowledge.
Uni-ViGU: نحو توحيد Video Generation و Understanding عبر A Diffusion-Based Video Generator
ClawGUI: إطار عمل موحد لـ Training و Evaluating و Deploying الـ GUI Agents
Attention Sink في نماذج Transformer: مسح شامل حول الاستخدام، والتفسير، والتخفيف
OmniShow: توحيد الشروط Multimodal لتوليد فيديوهات Human-Object Interaction
الماضي ليس ماضياً: تشكيل المكافأة الديناميكي المعزز بالذاكرة (Memory-Enhanced Dynamic Reward Shaping)
QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation
ELT: محولات متكررة مرنة للتوليد البصري
ECHO: توليد تقارير الأشعة السينية للصدر بكفاءة باستخدام One-step Block Diffusion
Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory
التقرير التقني لـ EXAONE 4.5
RefineAnything: تحسين متعدد الوسائط خاص بالمناطق للحصول على تفاصيل محلية مثالية
FORGE: تقييم متعدد الوسائط دقيق لسيناريوهات التصنيع
WildDet3D: توسيع نطاق Promptable 3D Detection في البيئات البرية (in the Wild)
Autoreason: التحسين الذاتي الذي يعرف متى يتوقف
ActiveGlasses: تعلم المناولة عبر الرؤية النشطة من خلال استعراضات البشر من منظور الشخص الأول (Ego-centric)
MegaStyle: بناء مجموعة بيانات Style متنوعة وقابلة للتوسع عبر Consistent Text-to-Image Style Mapping
عندما تتحدث الأرقام: مواءمة الأرقام النصية مع الحالات المرئية في نماذج Text-to-Video Diffusion Models
HY-Embodied-0.5: Embodied Foundation Models لـ Real-World Agents
ClawBench: هل تستطيع AI Agents إكمال المهام اليومية عبر الإنترنت؟