AI SOTA 基准测试
最新的人工智能模型性能比较、GPU 基准测试以及最新前沿论文
AI 模型性能基准
主流 AI 模型在各任务上的性能指标比较,展示最前沿的技术水平
Open-Domain Question Answering
30 篇论文 | 15 个基准测试
Handwritten Text Recognition
32 篇论文 | 13 个基准测试
Adversarial Defense
34 篇论文 | 10 个基准测试
Red Teaming
47 篇论文 | 0 个基准测试
Backdoor Attack
36 篇论文 | 0 个基准测试
Audio Classification
44 篇论文 | 26 个基准测试
Bandwidth Extension
45 篇论文 | 6 个基准测试
Target Speaker Extraction
49 篇论文 | 0 个基准测试
Inference Optimization
48 篇论文 | 0 个基准测试
Room Impulse Response (RIR)
46 篇论文 | 0 个基准测试
Type prediction
44 篇论文 | 3 个基准测试
Chart Question Answering
41 篇论文 | 3 个基准测试
Compiler Optimization
44 篇论文 | 0 个基准测试
Traffic Signal Control
40 篇论文 | 0 个基准测试
Code Classification
37 篇论文 | 0 个基准测试
Action Quality Assessment
50 篇论文 | 8 个基准测试
3D Lane Detection
50 篇论文 | 4 个基准测试
Colorization
50 篇论文 | 2 个基准测试
Color Constancy
50 篇论文 | 1 个基准测试
Human Dynamics
50 篇论文 | 0 个基准测试
Node Classification
42 篇论文 | 127 个基准测试
Graph Property Prediction
45 篇论文 | 4 个基准测试
Jet Tagging
44 篇论文 | 1 个基准测试
Triple Classification
44 篇论文 | 1 个基准测试
Graph Sampling
49 篇论文 | 0 个基准测试
Document Summarization
46 篇论文 | 7 个基准测试
Knowledge Graphs
44 篇论文 | 4 个基准测试
Explainable Artificial Intelligence (XAI)
49 篇论文 | 1 个基准测试
Ontology Matching
50 篇论文 | 0 个基准测试
Knowledge Base Construction
44 篇论文 | 0 个基准测试
multimodal
74 篇论文 | 77 个基准测试
reasoning
56 篇论文 | 56 个基准测试
understanding
46 篇论文 | 48 个基准测试
other
32 篇论文 | 32 个基准测试
knowledge
27 篇论文 | 29 个基准测试
Skin Lesion Segmentation
48 篇论文 | 3 个基准测试
Diabetic Retinopathy Detection
48 篇论文 | 1 个基准测试
Pharmacovigilance
50 篇论文 | 0 个基准测试
SSVEP
50 篇论文 | 0 个基准测试
Metal Artifact Reduction
48 篇论文 | 0 个基准测试
Classification
49 篇论文 | 71 个基准测试
Domain Generalization
48 篇论文 | 20 个基准测试
Bilevel Optimization
50 篇论文 | 3 个基准测试
Computational Efficiency
49 篇论文 | 1 个基准测试
Inductive Learning
49 篇论文 | 0 个基准测试
Deep Clustering
50 篇论文 | 5 个基准测试
Multimodal Recommendation
50 篇论文 | 5 个基准测试
Physical Simulations
50 篇论文 | 5 个基准测试
Electrical Engineering
50 篇论文 | 1 个基准测试
Computational Efficiency
49 篇论文 | 1 个基准测试
Music Transcription
40 篇论文 | 6 个基准测试
Voice Conversion
41 篇论文 | 3 个基准测试
Community Question Answering
35 篇论文 | 2 个基准测试
Music Classification
49 篇论文 | 0 个基准测试
Music Information Retrieval
44 篇论文 | 0 个基准测试
Few-Shot Text Classification
49 篇论文 | 8 个基准测试
Word Alignment
50 篇论文 | 7 个基准测试
Deep Clustering
50 篇论文 | 5 个基准测试
Semantic Dependency Parsing
50 篇论文 | 3 个基准测试
Lemmatization
49 篇论文 | 0 个基准测试
Offline RL
48 篇论文 | 2 个基准测试
Community Question Answering
35 篇论文 | 2 个基准测试
Car Racing
48 篇论文 | 0 个基准测试
Real-Time Strategy Games
46 篇论文 | 0 个基准测试
Game Design
43 篇论文 | 0 个基准测试
Common Sense Reasoning
45 篇论文 | 24 个基准测试
3D Human Reconstruction
48 篇论文 | 10 个基准测试
ARC
50 篇论文 | 0 个基准测试
Discrete Choice Models
50 篇论文 | 0 个基准测试
Causal Identification
46 篇论文 | 0 个基准测试
Gesture Generation
47 篇论文 | 4 个基准测试
Robot Task Planning
46 篇论文 | 3 个基准测试
Trajectory Planning
47 篇论文 | 2 个基准测试
Benchmarking
45 篇论文 | 2 个基准测试
multimodal interaction
45 篇论文 | 0 个基准测试
Speech Separation
49 篇论文 | 19 个基准测试
Spoken language identification
50 篇论文 | 12 个基准测试
Speech Dereverberation
50 篇论文 | 5 个基准测试
Acoustic Modelling
50 篇论文 | 0 个基准测试
Spoken Dialogue Systems
47 篇论文 | 0 个基准测试
Time Series Forecasting
49 篇论文 | 86 个基准测试
Time Series Prediction
50 篇论文 | 2 个基准测试
Computational Efficiency
49 篇论文 | 1 个基准测试
Activity Prediction
48 篇论文 | 1 个基准测试
Predictive Process Monitoring
48 篇论文 | 0 个基准测试
GPU 基准测试
最新的 GPU 硬件和软件性能评测,帮助您做出明智的硬件选择
软件性能
DeepSeek-R1-Distill-Qwen-7B
环境: vllm
DeepSeek-R1-Distill-Llama-8B
环境: vllm
DeepSeek-R1-Distill-Qwen-14B
环境: vllm
DeepSeek-R1-Distill-Qwen-32B
环境: vllm
DeepSeek-R1-Distill-Llama-70B
环境: vllm
DeepSeek-R1-Distill-Qwen-7B
环境: sglang
DeepSeek-R1-Distill-Llama-8B
环境: sglang
DeepSeek-R1-Distill-Qwen-14B
环境: sglang
DeepSeek-R1-Distill-Qwen-32B
环境: sglang
DeepSeek-R1-Distill-Llama-70B
环境: sglang
最新研究论文
每日更新的前沿 AI 研究论文,助您把握人工智能最新动向
睡眠时间计算:超越测试时的推理扩展
Kevin Lin, Charlie Snell, Yu Wang, et al.
发布日期: 4/18/2025
生成但验证:通过回顾性重采样减少视觉-语言模型的幻觉
Tsung-Han Wu, Heekyung Lee, Jiaxin Ge, et al.
发布日期: 4/18/2025
感知编码器:最佳的视觉嵌入并非位于网络的输出层
Daniel Bolya, Po-Yao Huang, Peize Sun, et al.
发布日期: 4/18/2025
CLIMB:基于聚类的迭代数据混合自举方法用于语言模型预训练
Shizhe Diao, Yu Yang, Yonggan Fu, et al.
发布日期: 4/18/2025
FreshStack: 构建用于评估技术文档检索的现实基准测试
Nandan Thakur, Jimmy Lin, Sam Havens, et al.
发布日期: 4/18/2025
VistaDPO:用于大型视频模型的视频层次空间-时间直接偏好优化
Haojian Huang, Haodong Chen, Shengqiong Wu, et al.
发布日期: 4/18/2025
探索专家失败案例以改进LLM代理调优
Li-Cheng Lan, Andrew Bai, Minhao Cheng, et al.
发布日期: 4/18/2025
带有冲突证据的检索增强生成
Han Wang, Archiki Prasad, Elias Stengel-Eskin, et al.
发布日期: 4/18/2025
纠正您:自动转向去噪轨迹以规避不希望的概念
Leyang Li, Shilin Lu, Yan Ren, et al.
发布日期: 4/18/2025
NoisyRollout:利用数据增强强化视觉推理
Xiangyan Liu, Jinjie Ni, Zijian Wu, et al.
发布日期: 4/18/2025
在视频生成的下一帧预测模型中打包输入帧上下文
Lvmin Zhang, Maneesh Agrawala
发布日期: 4/18/2025
抗蒸馏采样
Yash Savani, Asher Trockman, Zhili Feng, et al.
发布日期: 4/18/2025
HLS-Eval:面向高层次综合设计任务的大语言模型评估基准与框架
Stefan Abi-Karam, Cong Hao
发布日期: 4/18/2025
SHeaP:基于二维高斯分布自监督学习的头部几何预测器
Liam Schoneveld, Zhe Chen, Davide Davoli, et al.
发布日期: 4/18/2025
Cobra:基于更广泛参考的高效线稿上色方法
Junhao Zhuang, Lingen Li, Xuan Ju, et al.
发布日期: 4/17/2025
面向任意 Lidar 数据的完成学习方法
Ayca Takmaz, Cristiano Saltori, Neehar Peri, et al.
发布日期: 4/17/2025
稳健且细粒度的AI生成文本检测
Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, et al.
发布日期: 4/17/2025
BitNet b1.58 2B4T 技术报告
Shuming Ma, Hongyu Wang, Shaohan Huang, et al.
发布日期: 4/17/2025
简约的可扩展性:基于单一Transformer的视觉-语言学习实证分析
Weixian Lei, Jiacong Wang, Haochen Wang, et al.
发布日期: 4/17/2025
天才:一种通用且纯无监督的自训练框架 面向高级推理
Fangzhi Xu, Hang Yan, Chang Ma, et al.
发布日期: 4/17/2025
指令与推理数据如何塑造后训练:从层级梯度视角看数据质量
Ming Li, Yanhong Li, Ziyue Li, et al.
发布日期: 4/17/2025
Seedream 3.0 技术报告
Yu Gao, Lixue Gong, Qiushan Guo, et al.
发布日期: 4/17/2025
Heimdall:生成式验证中的测试时缩放
Wenlei Shi, Xing Jin
发布日期: 4/17/2025
Pixel-SAIL:面向像素级理解的单一Transformer模型
Tao Zhang, Xiangtai Li, Zilong Huang, et al.
发布日期: 4/17/2025
文本竞技场
Leon Guertler, Bobby Cheng, Simon Yu, et al.
发布日期: 4/17/2025
xVerify:推理模型评估中的高效答案验证器
Ding Chen, Qingchen Yu, Pengyuan Wang, et al.
发布日期: 4/17/2025
不确定性引导的由粗到细肿瘤分割及解剖学感知后处理
Ilkin Sevgi Isler, David Mohaisen, Curtis Lisle, et al.
发布日期: 4/17/2025
DeepMath-103K:一个大规模、具挑战性、去污染且可验证的数学数据集,助力推理能力提升
Zhiwei He, Tian Liang, Jiahao Xu, et al.
发布日期: 4/17/2025
基于代理的风险分析图自动化安全需求推导
Balahari Vignesh Balu, Florian Geissler, Francesco Carella, et al.
发布日期: 4/16/2025
C-SHAP用于时间序列:一种高层次时间解释的方法
Annemarie Jutte, Faizan Ahmed, Jeroen Linssen, et al.
发布日期: 4/16/2025
FlexIP:用于定制图像生成的动态保存与个性化控制
Linyan Huang, Haonan Lin, Yanning Zhou, et al.
发布日期: 4/16/2025
MineWorld:在《我的世界》中构建的实时开源交互式世界模型
Junliang Guo, Yang Ye, Tianyu He, et al.
发布日期: 4/16/2025
博士水平的大型语言模型是否真正掌握了基本加法?探究规则学习与记忆在大型语言模型中的区别
Yang Yan, Yu Lu, Renjun Xu, et al.
发布日期: 4/16/2025
PixelFlow:基于像素空间的生成模型与流
Shoufa Chen, Chongjian Ge, Shilong Zhang, et al.
发布日期: 4/16/2025
CoRAG:协作式检索增强生成
Aashiq Muhamed, Mona Diab, Virginia Smith
发布日期: 4/16/2025
SAEs 可以提高遗忘效果:动态稀疏自动编码器在 LLMs 中的精确遗忘保护措施
Aashiq Muhamed, Jacopo Bonato, Mona Diab, et al.
发布日期: 4/16/2025
InteractVLM:从2D基础模型进行3D交互推理
Sai Kumar Dwivedi, Dimitrije Antić, Shashank Tripathi, et al.
发布日期: 4/16/2025
In-2-4D:从两个单视图图像进行中间帧生成以实现四维生成
Sauradip Nag, Daniel Cohen-Or, Hao Zhang, et al.
发布日期: 4/16/2025
现代BERT还是DeBERTaV3?探究架构和数据对Transformer编码器模型性能的影响
Wissam Antoun, Benoît Sagot, Djamé Seddah
发布日期: 4/16/2025
SQL-R1:通过强化学习训练自然语言到SQL推理模型
Peixian Ma, Xialie Zhuang, Chengjin Xu, et al.
发布日期: 4/16/2025
海藻-7B:成本效益高的视频生成基础模型训练
Team Seawead, Ceyuan Yang, Zhijie Lin, et al.
发布日期: 4/16/2025
GigaTok:将视觉分词器扩展到30亿参数以实现自回归图像生成
Tianwei Xiong, Jun Hao Liew, Zilong Huang, et al.
发布日期: 4/16/2025
视觉编年史:利用多模态大语言模型分析海量图像集合
Boyang Deng, Songyou Peng, Kyle Genova, et al.
发布日期: 4/16/2025
VLM-R1:一种稳定且可泛化的R1风格大型视觉-语言模型
Haozhan Shen, Peng Liu, Jingcheng Li, et al.
发布日期: 4/16/2025
盘古超大规模模型:在昇腾NPUs上推动密集型大语言模型的极限
Yichun Yin, Wenyong Huang, Kaikai Song, et al.
发布日期: 4/16/2025
无需训练的多模态规划和结构化噪声初始化在文本到视频生成中的引导
Jialu Li, Shoubin Yu, Han Lin, et al.
发布日期: 4/16/2025
ZipIR:用于高分辨率图像修复的潜在金字塔扩散Transformer
Yongsheng Yu, Haitian Zheng, Zhifei Zhang, et al.
发布日期: 4/16/2025
潜在扩散自编码器:迈向高效且有意义的医学影像无监督表征学习
Gabriele Lozupone, Alessandro Bria, Francesco Fontanella, et al.
发布日期: 4/16/2025
SocioVerse:一个由大型语言模型代理驱动的社会模拟世界模型及1000万真实用户组成的用户池
Xinnong Zhang, Jiayu Lin, Xinyi Mou, et al.
发布日期: 4/16/2025
InternVL3:探索开源多模态模型的高级训练和测试方法
Jinguo Zhu, Weiyun Wang, Zhe Chen, et al.
发布日期: 4/16/2025
大型语言模型可能成为危险的说服者:对说服安全性的实证研究
Minqian Liu, Zhiyang Xu, Xinyi Zhang, et al.
发布日期: 4/16/2025
S1-Bench:用于评估大型推理模型系统1思维能力的简单基准测试
Wenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, et al.
发布日期: 4/16/2025
LLM-SRBench:大型语言模型在科学方程发现方面的新基准
Parshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, et al.
发布日期: 4/16/2025
Mavors: 多粒度视频表示在多模态大语言模型中的应用
Yang Shi, Jiaheng Liu, Yushuo Guan, et al.
发布日期: 4/16/2025
FUSION: 视觉-语言表示的全面融合以实现深度跨模态理解
Zheng Liu, Mengjie Liu, Jingzhou Chen, et al.
发布日期: 4/16/2025
M1:通过Mamba推理模型实现可扩展的测试时计算
Junxiong Wang, Wen-Ding Li, Daniele Paliotta, et al.
发布日期: 4/16/2025
打破数据障碍 -- 通过任务泛化构建GUI代理
Junlei Zhang, Zichen Ding, Chang Ma, et al.
发布日期: 4/16/2025