HyperAI超神经

Baichuan-M2：基于大型验证系统扩展医学能力

LLM

医学

Baichuan-M2 Team, Chengfeng Dou, Chong Liu, et al.

VerlTool：面向具工具使用的整体性智能体强化学习

基准

推理

Dongfu Jiang, Yi Lu, Zhuofeng Li, et al.

基准

多模态

Hao Lu, Jiahao Wang, Yaolun Zhang, et al.

LLM

智能问答

Yang Tan, Mingchen Li, Zijie Huang, et al.

AlphaEarth Foundations：一种基于嵌入场的模型，用于从稀疏标签数据中实现精确且高效的全球制图

AI for Science

遥感

Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, et al.

LLM

代码生成

Zihan Wang, Jiaze Chen, Zhicheng Liu, et al.

AI 编译器

TVM

Wang Lei, Cheng Yu, Shi Yining, et al.

DeepSeek

LLM

Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, et al.

LLM

检索增强生成

Mohsen Nayebi Kerdabadi, Arya Hadizadeh Moghaddam, Dongjie Wang, Zijun Yao

LLM

Agent

Yeawon Lee, Xiaoyang Wang, Christopher C. Yang

文档理解

多模态

Ahmed Nassar, Andres Marafioti, Matteo Omenetti, et al.

AI for Science

Transformer

Hao Chen, Han Tao, Guo Song, et al.

视觉问答

多模态

Junying Chen, Ruyi Ouyang, Anningzhe Gao, et al.

Agent

LLM

Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.

计算机视觉

目标检测

Blaž Rolih, Matic Fučka, Danijel Skočaj

基准

LLM

Jie Zhang, Changzai Pan, Kaiwen Wei, et al.

强化学习

模型训练

Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.

数据集

推理

Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.

自动驾驶

Agent

Leonard Frank Neis, Andre Antakli, Matthias Klusch

LLM

模型训练

Yifan Wang, Binbin Liu, Fengze Liu, et al.

统一多模态

数据集

Shunian Chen, Hejin Huang, Yexin Liu, et al.

3D 生成

视频理解

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

代码生成

基准

Keke Lian, Bin Wang, Lei Zhang, et al.

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

Agent

具身智能

Delin Qu, Haoming Song, Qizhi Chen, et al.

多模态

推理

Jie Jiang, Qi Yang, Bolin Ni, et al.

监督式微调

偏好

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

计算机视觉

图像理解

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

LLM

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

Agent

基准

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

基准

Agent

Zhenting Wang, Qi Chang, Hemani Patel, et al.

Baichuan-M2：基于大型验证系统扩展医学能力

LLM

医学

Baichuan-M2 Team, Chengfeng Dou, Chong Liu, et al.

VerlTool：面向具工具使用的整体性智能体强化学习

基准

推理

Dongfu Jiang, Yi Lu, Zhuofeng Li, et al.

基准

多模态

Hao Lu, Jiahao Wang, Yaolun Zhang, et al.

LLM

智能问答

Yang Tan, Mingchen Li, Zijie Huang, et al.

AI for Science

遥感

Christopher F. Brown, Michal R. Kazmierski, Valerie J. Pasquarella, et al.

LLM

代码生成

Zihan Wang, Jiaze Chen, Zhicheng Liu, et al.

AI 编译器

TVM

Wang Lei, Cheng Yu, Shi Yining, et al.

DeepSeek

LLM

Sara Vera Marjanović, Arkil Patel, Vaibhav Adlakha, et al.

LLM

检索增强生成

Mohsen Nayebi Kerdabadi, Arya Hadizadeh Moghaddam, Dongjie Wang, Zijun Yao

LLM

Agent

Yeawon Lee, Xiaoyang Wang, Christopher C. Yang

文档理解

多模态

Ahmed Nassar, Andres Marafioti, Matteo Omenetti, et al.

AI for Science

Transformer

Hao Chen, Han Tao, Guo Song, et al.

视觉问答

多模态

Junying Chen, Ruyi Ouyang, Anningzhe Gao, et al.

Agent

LLM

Venkatesh Mishra, Amir Saeidi, Satyam Raj, et al.

Shouwei Ruan, Liyuan Wang, Caixin Kang, et al.

计算机视觉

目标检测

Blaž Rolih, Matic Fučka, Danijel Skočaj

基准

LLM

Jie Zhang, Changzai Pan, Kaiwen Wei, et al.

强化学习

模型训练

Wenfeng Feng, Penghong Zhao, Guochao Jiang, et al.

数据集

推理

Fan Nie, Ken Ziyu Liu, Zihao Wang, et al.

自动驾驶

Agent

Leonard Frank Neis, Andre Antakli, Matthias Klusch

LLM

模型训练

Yifan Wang, Binbin Liu, Fengze Liu, et al.

统一多模态

数据集

Shunian Chen, Hejin Huang, Yexin Liu, et al.

3D 生成

视频理解

Xiaochuan Li, Guoguang Du, Runze Zhang, et al.

代码生成

基准

Keke Lian, Bin Wang, Lei Zhang, et al.

Agent

具身智能

Delin Qu, Haoming Song, Qizhi Chen, et al.

多模态

推理

Jie Jiang, Qi Yang, Bolin Ni, et al.

监督式微调

偏好

Xiaolong Wei, Bo Lu, Xingyu Zhang, et al.

计算机视觉

图像理解

Jiawei Liu, Jiahe Hou, Wei Wang, et al.

LLM

监督式微调

Samuel Lewis-Lim, Xingwei Tan, Zhixue Zhao, et al.

Agent

基准

Chengyue Yu, Siyuan Lu, Chenyi Zhuang, et al.

基准

Agent

Zhenting Wang, Qi Chang, Hemani Patel, et al.

ELV-Halluc：长视频理解中语义聚合幻觉的基准测试

MedChatZH：一个更优的医疗顾问通过更优的指令学习

AlphaEarth Foundations：一种基于嵌入场的模型，用于从稀疏标签数据中实现精确且高效的全球制图

AetherCode：评估LLMs在顶级编程竞赛中获胜的能力

TileLang：一种面向AI系统的可组合分块编程模型

DeepSeek-R1 思维学：让我们探讨 LLM 推理

基于双轴传播的多本体集成用于医学概念表示

使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题

SmolDocling：一种超紧凑的视觉-语言模型，用于端到端多模态文档转换

VA-MoE：面向增量天气预报的变量自适应专家混合模型

华佗GPT-Vision，面向大规模注入医学视觉知识到多模态LLM

输入重构如何提升复杂动态环境中工具使用准确性？基于τ-bench 的研究

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

从反应式到认知式：面向具身Agent的类脑空间智能

无标签遗漏：适用于所有监督模式的统一表面缺陷检测模型

T2R-bench：一个从真实工业表格生成文章级报告的基准测试

PVPO：面向智能体推理的预估价值策略优化

UQ：在未解问题上评估语言模型

CARJAN：基于Agent的交通场景生成与仿真方法——AJAN

TiKMiX：在语言模型预训练中引入数据影响的动态混合机制

TalkVid：一个大规模多样化音频驱动说话头合成数据集

Droplet3D：来自视频的常识先验促进3D生成

A.S.E：面向AI生成代码安全性的仓库级基准测试

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

思维链动态分析：主动引导还是不忠实的事后合理化？

AWorld：面向智能体AI训练配方的编排

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

ELV-Halluc：长视频理解中语义聚合幻觉的基准测试

MedChatZH：一个更优的医疗顾问通过更优的指令学习

AlphaEarth Foundations：一种基于嵌入场的模型，用于从稀疏标签数据中实现精确且高效的全球制图

AetherCode：评估LLMs在顶级编程竞赛中获胜的能力

TileLang：一种面向AI系统的可组合分块编程模型

DeepSeek-R1 思维学：让我们探讨 LLM 推理

基于双轴传播的多本体集成用于医学概念表示

使用协作式多Agent LLM架构从SOAP病历中自动检测临床问题

SmolDocling：一种超紧凑的视觉-语言模型，用于端到端多模态文档转换

VA-MoE：面向增量天气预报的变量自适应专家混合模型

华佗GPT-Vision，面向大规模注入医学视觉知识到多模态LLM

输入重构如何提升复杂动态环境中工具使用准确性？基于τ-bench 的研究

ALLaM 34B 的 UI 级评估：通过 HUMAIN Chat 测量以阿拉伯语为中心的 LLM

从反应式到认知式：面向具身Agent的类脑空间智能

无标签遗漏：适用于所有监督模式的统一表面缺陷检测模型

T2R-bench：一个从真实工业表格生成文章级报告的基准测试

PVPO：面向智能体推理的预估价值策略优化

UQ：在未解问题上评估语言模型

CARJAN：基于Agent的交通场景生成与仿真方法——AJAN

TiKMiX：在语言模型预训练中引入数据影响的动态混合机制

TalkVid：一个大规模多样化音频驱动说话头合成数据集

Droplet3D：来自视频的常识先验促进3D生成

A.S.E：面向AI生成代码安全性的仓库级基准测试

EmbodiedOneVision：面向通用机器人控制的交织视觉-文本-动作预训练

R-4B：通过双模式退火与强化学习激励多模态大模型的通用自动思考能力

激发小规模语言模型的创意写作：基于LLM的评判与多智能体精炼奖励

TMUAD：通过文本记忆库增强统一异常检测模型的逻辑能力

思维链动态分析：主动引导还是不忠实的事后合理化？

AWorld：面向智能体AI训练配方的编排

MCP-Bench：通过MCP服务器对复杂现实世界任务中使用工具的LLM Agent进行基准测试

Command Palette

论文

Command Palette

论文

Command Palette

论文