Llm
مقاييس أداء نماذج الذكاء الاصطناعي الرئيسية عبر مهام متنوعة، مع عرض أحدث التقنيات
معايير أداء نماذج الذكاء الاصطناعي
مقاييس أداء نماذج الذكاء الاصطناعي الرئيسية عبر مهام متنوعة، مع عرض أحدث التقنيات
multimodal
78 ورقة بحثية | 0 معيار قياسي
reasoning
60 ورقة بحثية | 0 معيار قياسي
understanding
47 ورقة بحثية | 0 معيار قياسي
other
35 ورقة بحثية | 0 معيار قياسي
knowledge
27 ورقة بحثية | 0 معيار قياسي
agent
24 ورقة بحثية | 0 معيار قياسي
code
20 ورقة بحثية | 0 معيار قياسي
math
20 ورقة بحثية | 0 معيار قياسي
language
19 ورقة بحثية | 0 معيار قياسي
examination
17 ورقة بحثية | 0 معيار قياسي
safety
17 ورقة بحثية | 0 معيار قياسي
strong reasoning
15 ورقة بحثية | 0 معيار قياسي
long-context
10 ورقة بحثية | 0 معيار قياسي
creation
6 ورقة بحثية | 0 معيار قياسي
instruct
5 ورقة بحثية | 0 معيار قياسي