Command Palette
Search for a command to run...
الأوراق البحثية
أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

كمية المعلومات في بكسل الصورة الرقمية

AR-RAG: التوليد التكراري للاسترجاع المعزز لتوليد الصور































كمية المعلومات في بكسل الصورة الرقمية

AR-RAG: التوليد التكراري للاسترجاع المعزز لتوليد الصور






























التعرف على الكتابة الرومانية بخط اليد باستخدام محرك التحويل الضوئي للأحرف (OCR) مفتوح المصدر تيسركت Explanation of Terms:
TimeSenCLIP: نموذج رؤية ولغة للسلاسل الزمنية للاستشعار عن بُعد
تعلّم التطوّر الزمني للتبعيّة المكانية باستخدام نماذج عمليات غاوسية المكانية-الزمنية المعممة
TripoSG: توليد أشكال ثلاثية الأبعاد عالية الدقة باستخدام نماذج تدفق مُعادة قياس واسعة النطاق
تقرير فني حول Qwen2.5-Omni
إزالة الضبابية للصورة المفردة ذات المقياس المزدوج عبر التعزيز العصبي
SpeechPrompt: توجيه نماذج لغة الكلام لمهام معالجة الكلام
موسيقى سكتش نت: توليد موسيقى قابل للتحكم من خلال التمثيلات المفككة للنغمة والإيقاع
عجلة البيانات التكيفية: تطبيق حلقات تحكم MAPE على تحسين وكلاء الذكاء الاصطناعي
توسيع معيار VSR لـ VLLM للتخصص في القواعد المكانية
DensityTool: أداة ما بعد المعالجة لكثافة الحالات من VASP مع تفصيل الفضاء والدوران
تعميم نموذج توازن الطاقة أحادي الأبعاد لتكوين جليد ثاني أكسيد الكربون على أسطح الكواكب الخارجية ذات المدارات البيضاوية
نحو العقل النهائي: استكشاف الاكتشاف العلمي باستخدام ذكاء ChatGPT الاصطناعي
الاستدلال الطبي في نماذج اللغات الكبيرة: تحليل متعمق لـ DeepSeek R1
Speech-FT: دمج نماذج تمثيل الكلام المُدرَّبة مسبقاً والمُعدَّلة للتخصيص من أجل التعميم عبر المهام
DeepSeek LLM: توسيع نطاق نماذج اللغة مفتوحة المصدر مع الطويلة الأمد
MatterGen: نموذج توليدي لتصميم المواد غير العضوية
متعددالممثلين-كتاب صوتي: توليد كتب صوتية بدون تدريب مسبق باستخدام وجوه وأصوات عدة متحدثين
تقرير في-4 التقني
مجموعة من الدروس التعليمية لحزمة محاكاة LAMMPS
GLM-4-Voice: نحو روبوت محادثة منطوق ذكي وشبيه بالإنسان من البداية إلى النهاية
ترجمة الكلام الحساسة للطول لتدبلجة الفيديو
DrawingSpinUp: رسوم متحركة ثلاثية الأبعاد من رسومات شخصية واحدة
محاذاة أخطاء الكلمات الموجهة صوتياً لتحليل أخطاء التعرف على الكلام في الترجمة الصوتية
ReaderLM-v2: نموذج لغوي صغير لتحويل HTML إلى Markdown و JSON
حساب وتحليل النشر لمنصة سيارات تعمل بشكل فاشل
ميج أكتور: تسخير قوة الفيديو الخام للرسوم المتحركة الحية للصور الشخصية
Flash-VStream: الفهم في الوقت الحقيقي القائم على الذاكرة لتدفقات الفيديو الطويلة
PhotoMaker: تخصيص الصور الواقعية للبشر عبر تضمين الهوية المتراكم
StoryDiffusion: انتباه ذاتي متسق لتوليد الصور والفيديو طويل المدى
التعرف على الكتابة الرومانية بخط اليد باستخدام محرك التحويل الضوئي للأحرف (OCR) مفتوح المصدر تيسركت Explanation of Terms:
TimeSenCLIP: نموذج رؤية ولغة للسلاسل الزمنية للاستشعار عن بُعد
تعلّم التطوّر الزمني للتبعيّة المكانية باستخدام نماذج عمليات غاوسية المكانية-الزمنية المعممة
TripoSG: توليد أشكال ثلاثية الأبعاد عالية الدقة باستخدام نماذج تدفق مُعادة قياس واسعة النطاق
تقرير فني حول Qwen2.5-Omni
إزالة الضبابية للصورة المفردة ذات المقياس المزدوج عبر التعزيز العصبي
SpeechPrompt: توجيه نماذج لغة الكلام لمهام معالجة الكلام
موسيقى سكتش نت: توليد موسيقى قابل للتحكم من خلال التمثيلات المفككة للنغمة والإيقاع
عجلة البيانات التكيفية: تطبيق حلقات تحكم MAPE على تحسين وكلاء الذكاء الاصطناعي
توسيع معيار VSR لـ VLLM للتخصص في القواعد المكانية
DensityTool: أداة ما بعد المعالجة لكثافة الحالات من VASP مع تفصيل الفضاء والدوران
تعميم نموذج توازن الطاقة أحادي الأبعاد لتكوين جليد ثاني أكسيد الكربون على أسطح الكواكب الخارجية ذات المدارات البيضاوية
نحو العقل النهائي: استكشاف الاكتشاف العلمي باستخدام ذكاء ChatGPT الاصطناعي
الاستدلال الطبي في نماذج اللغات الكبيرة: تحليل متعمق لـ DeepSeek R1
Speech-FT: دمج نماذج تمثيل الكلام المُدرَّبة مسبقاً والمُعدَّلة للتخصيص من أجل التعميم عبر المهام
DeepSeek LLM: توسيع نطاق نماذج اللغة مفتوحة المصدر مع الطويلة الأمد
MatterGen: نموذج توليدي لتصميم المواد غير العضوية
متعددالممثلين-كتاب صوتي: توليد كتب صوتية بدون تدريب مسبق باستخدام وجوه وأصوات عدة متحدثين
تقرير في-4 التقني
مجموعة من الدروس التعليمية لحزمة محاكاة LAMMPS
GLM-4-Voice: نحو روبوت محادثة منطوق ذكي وشبيه بالإنسان من البداية إلى النهاية
ترجمة الكلام الحساسة للطول لتدبلجة الفيديو
DrawingSpinUp: رسوم متحركة ثلاثية الأبعاد من رسومات شخصية واحدة
محاذاة أخطاء الكلمات الموجهة صوتياً لتحليل أخطاء التعرف على الكلام في الترجمة الصوتية
ReaderLM-v2: نموذج لغوي صغير لتحويل HTML إلى Markdown و JSON
حساب وتحليل النشر لمنصة سيارات تعمل بشكل فاشل
ميج أكتور: تسخير قوة الفيديو الخام للرسوم المتحركة الحية للصور الشخصية
Flash-VStream: الفهم في الوقت الحقيقي القائم على الذاكرة لتدفقات الفيديو الطويلة
PhotoMaker: تخصيص الصور الواقعية للبشر عبر تضمين الهوية المتراكم
StoryDiffusion: انتباه ذاتي متسق لتوليد الصور والفيديو طويل المدى