HyperAI

أوراق بحثية متطورة في مجال الذكاء الاصطناعي يتم تحديثها يوميًا لمساعدتك على مواكبة أحدث اتجاهات الذكاء الاصطناعي

FlashMemory-DeepSeek-V4: فهرس البرق للسياق فائق الطول عبر انتباه متناثر ذو نظرة إلى الأمام

LLM

DeepSeek

Yan Wang, Qifan Zhang, Jiachen Yu, et al.

المهارة الكامنة: من المهارات النصية ضمن السياق إلى المهارات الكامنة في الأوزان لوكلاء LLM agents

LLM

إيجرنت

Aofan Yu, Chenyu Zhou, Tianyi Xu, et al.

CoVEBench: هل يمكن لنماذج تحرير الفيديو التعامل مع التعليمات المعقدة؟

نص إلى فيديو

توليد الفيديو

Jiangtao Wu, Jiaming Wang, Yiwen He, et al.

الذاكرة المكانية الكامنة لنماذج العالم للفيديو

توليد الفيديو

نموذج الانتشار

Weijie Wang, Haoyu Zhao, Yifan Yang, et al.

حول هندسة التقطير على السياسة

LLM

تدريب النموذج

Zhennan Shen, Yanshu Li, Qingyu Yin, et al.

SWE-Explore: تقييم كيفية استكشاف وكلاء البرمجة Agents للمستودعات

إيجرنت

توليد الشفرة

Shaoqiu Zhang, Yuhang Wang, Jialiang Liang, et al.

تقرير تقني حول VoxCPM2

Text-to-Speech

نموذج الانتشار

VoxCPM Team

التقرير الفني الخاص بـ LongCat-Video-Avatar 1.5

توليد الفيديو

متعدد الوسائط

Meituan LongCat Team

ChartNet: مجموعة بيانات متعددة الوسائط عالية الجودة وذات مقياس يتجاوز المليون لفهم المخططات البيانية بشكل قوي

متعدد الوسائط

الإجابة على الأسئلة البصرية

Jovana Kondic, Pengyuan Li, Dhiraj Joshi, et al.

ACL-Verbatim: الإجابة على الأسئلة الخالية من الهلوسة في مجال البحث

توليد مدعوم بالاسترجاع

الإجابة على الأسئلة الذكية

Gábor Recski, Szilveszter Tóth, Nadia Verdha, et al.

ما وراء الحوارات الثابتة: تقييم ذاكرة طويلة المدى واقعية ومتباينة ومتطورة

LLM

المعايير

Han Zhang, Zihao Tang, Xin Yu, et al.

نهاية هندسة البرمجيات: كيف تعمل وكلاء الذكاء الاصطناعي على إعادة هيكلة النموذج البرمجي بشكل جذري

إيجرنت

LLM

Zhenfeng Cao

لماذا تتعلم النماذج الأكبر بشكل أفضل: تأثيرات السعة، والتداخل، والاحتفاظ بالمهام النادرة

التعلم العميق

التعلم متعدد المهام

Jing Huang, Daniel Wurgaft, Rachit Bansal, et al.

عندما تفشل الأدوات: تقييم المعايير لإعادة التخطيط الديناميكي والتعافي من الشذوذ في LLM Agents

LLM

إيجرنت

Dongsheng Zhu, Xuchen Ma, Yucheng Shen, et al.

الإدراج المباشر للكائنات الواعي بالثلاثي الأبعاد عبر الوكلاء البصريين المفككين

نموذج الانتشار

توليد الصور

Jingbo Gong, Yikai Wang, Yushi Lan, et al.

AnchorWorld: محاكاة العالم المتجسد الذاتي باستخدام تخصيص التطور القائم على المنظور

الذكاء المُجسم

توليد 3D

Yu Li, Menghan Xia, Gongye Liu, et al.

SoCRATES: نحو تقييم آلي موثوق للوساطة الاستباقية لـ LLM عبر المجالات والتباينات الاجتماعية-المعرفية

LLM

إيجرنت

Taewon Yun, Hyeonseong Park, Jeonghwan Choi, et al.

MMAE: معيار ضخم متعدد المهام لتحرير الصوت

المعالجة الصوتية والصوتية

متعدد الوسائط

Ziyang Ma, Ruiqi Yan, Ruiyang Xu, et al.

مصفوفة فك التضمين الخاصة بك هي سراً عدسة للميزات لتضمينات النص

LLM

Songhao Wu, Zhongxin Chen, Yuxuan Liu, et al.

ChordEdit: نقل أحادي الخطوة منخفض الطاقة لتحرير الصور

نموذج الانتشار

تحويل النص إلى صورة

Liangsi Lu, Xuhang Chen, Minzhe Guo, et al.

NitroGen: نموذج أساسي مفتوح للوكلاء اللاعبين العالميين

إيجرنت

متعدد الوسائط

Loïc Magne, Anas Awadalla, Guanzhi Wang, et al.

إعادة بناء الكائنات الديناميكية بكفاءة: دقة واحدة من D4RT في كل مرة

تقدير العمق

الرؤية الآلية 3D

Chuhan Zhang, Guillaume Le Moing, Skanda Koppula, et al.

منصة التعلم المستمر: تقييم أنظمة الذكاء الاصطناعي المتطورة في بيئات عالمية واقعية ذات حالة

المعايير

LLM

Parth Asawa, Christopher M. Glaze, Gabriel Orlanski, et al.

تخزين الذاكرة: الشبكات العصبية المتكررة (RNNs) ذات الذاكرة المتزايدة

Transformer

التعلم العميق

Ali Behrouz, Zeman Li, Yuan Deng, et al.

RobotValues: تقييم الروبوتات المنزلية عندما تتعارض القيم البشرية

الروبوتات

المعايير

Jongwook Han, Hyeongjin Kim, Yohan Jo

VideoKR: نحو فهم الفيديو كثيف المعرفة والاستدلال

فهم الفيديو

الإجابة على الأسئلة البصرية

Lin Fu, Zheyuan Yang, Yang Wang, et al.

AdaPlanBench: تقييم التخطيط التكيفي في agents النماذج اللغوية الكبيرة تحت قيود العالم والمستخدم

إيجرنت

LLM

Jiayu Liu, Cheng Qian, Zhenhailong Wang, et al.

TIDE: اكتشاف استباقي متعدد المشكلات عبر التكرار الموجه بالقالب

إيجرنت

LLM

Soyeong Jeong, Jinheon Baek, Minki Kang, et al.

ArcANE: هل يظل وكلاء اللغة Agents في لعب الأدوار في الشخصية في الوقت المناسب؟

إيجرنت

LLM

Woojung Song, Nalim Kim, Sangjun Song, et al.

Code2LoRA: المحولات المُولَّدة بواسطة الشبكة الفائقة لنماذج لغات البرمجة في ظل تطور البرمجيات

توليد الشفرة

LLM

Liliana Hotsko, Yinxi Li, Yuntian Deng, et al.

تدرج السياسة المُشتقّة ذاتياً

التعلم القوي

LLM

Yifeng Liu, Shiyouan Zhang, Yifan Zhang, et al.

GSM-Symbolic: فهم قيود الاستدلال الرياضي في نماذج اللغات الكبيرة

LLM

الاستدلال

Iman Mirzadeh, Keivan Alizadeh, Oncel Tuzel, et al.

Command Palette

الأوراق البحثية

Command Palette

الأوراق البحثية

Command Palette

الأوراق البحثية