HyperAI超神经

NVIDIA Nemotron Nano V2 VL

LLM

多模态

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, et al.

CostBench：评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性

Agent

基准

Jiayu Liu, Cheng Qian, Zhaochen Su, et al.

视频理解

多模态

Shusheng Yang, Jihan Yang, Pinzhi Huang, et al.

强化学习

Agent

Zhaorun Chen, Zhuokai Zhao, Kai Zhang, et al.

推理

Agent

Runqi Qiao, Qiuna Tan, Minghan Yang, et al.

视频生成

多模态

Jingqi Tong, Yurong Mou, Hangcheng Li, et al.

蛋白质

生物分子

David A. Case, David S. Cerutti, Vinicius Wilian D. Cruzeiro, et al.

文生图

扩散模型

Chen Zhao, En Ci, Yunzhe Xu, et al.

LLM

推理

Yi-Fei Liu, Yi-Long Lu, Di He, et al.

多模态

多模态表征

Alexander Htet Kyaw, Lenin Ravindranath Sivalingam

Agent

推理

Narjes Nourzad, Hanqing Yang, Shiyu Chen, et al.

Transformer

深度学习

Mohamed Bouadi, Pratinav Seth, Aditya Tanna, et al.

监督式微调

基准

Aditya Tanna, Pratinav Seth, Mohamed Bouadi, et al.

语音生成

合成

Chao Yan, Boyong Wu, Peng Yang, et al.

多模态

基准

Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, et al.

统一多模态

合成

Guozhen Zhang, Zixiang Zhou, Teng Hu, et al.

自然语言处理

深度学习

Jinjie Ni, Qian Liu, Longxu Dou, et al.

基准

数据集

Chen Chen, ZeYang Hu, Fengjiao Chen, et al.

扩散模型

建模

Qingyue Long, Can Rong, Tong Li, et al.

视觉问答

机器人技术

Alexander Htet Kyaw, Richa Gupta, Dhruv Shah, et al.

Agent

AI for Science

Ludovico Mitchener, Angela Yiu, Benjamin Chang, et al.

LLM

推理

Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, et al.

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

多模态

计算机视觉

Roman Beliy, Amit Zalcher, Jonathan Kogman, et al.

视觉问答

推理

Zhuoran Zhang, Tengyue Wang, Xilin Gong, et al.

多模态

多模态表征

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, et al.

多模态

推理

Yiyang Zhou, Haoqin Tu, Zijun Wang, et al.

代码生成

多模态

Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, et al.

基准

LLM

Bertie Vidgen, Abby Fennelly, Evan Pinnix, et al.

视频理解

视觉问答

Sara Ghazanfari, Francesco Croce, Nicolas Flammarion, et al.

基准

推理

Thang Luong, Dawsen Hwang, Hoang H. Nguyen, et al.

高性能计算

AI for Science

Blaise Agüera y Arcas, Travis Beals, Maria Biggs, et al.

数据集

机器人技术

Kyungmin Lee, Sibeen Kim, Minho Park, et al.

NVIDIA Nemotron Nano V2 VL

LLM

多模态

NVIDIA, Amala Sanjay Deshmukh, Kateryna Chumachenko, et al.

CostBench：评估LLM工具使用Agent在动态环境中多轮成本最优规划与适应性

Agent

基准

Jiayu Liu, Cheng Qian, Zhaochen Su, et al.

视频理解

多模态

Shusheng Yang, Jihan Yang, Pinzhi Huang, et al.

强化学习

Agent

Zhaorun Chen, Zhuokai Zhao, Kai Zhang, et al.

推理

Agent

Runqi Qiao, Qiuna Tan, Minghan Yang, et al.

视频生成

多模态

Jingqi Tong, Yurong Mou, Hangcheng Li, et al.

蛋白质

生物分子

David A. Case, David S. Cerutti, Vinicius Wilian D. Cruzeiro, et al.

文生图

扩散模型

Chen Zhao, En Ci, Yunzhe Xu, et al.

LLM

推理

Yi-Fei Liu, Yi-Long Lu, Di He, et al.

多模态

多模态表征

Alexander Htet Kyaw, Lenin Ravindranath Sivalingam

Agent

推理

Narjes Nourzad, Hanqing Yang, Shiyu Chen, et al.

Transformer

深度学习

Mohamed Bouadi, Pratinav Seth, Aditya Tanna, et al.

监督式微调

基准

Aditya Tanna, Pratinav Seth, Mohamed Bouadi, et al.

语音生成

合成

Chao Yan, Boyong Wu, Peng Yang, et al.

多模态

基准

Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, et al.

统一多模态

合成

Guozhen Zhang, Zixiang Zhou, Teng Hu, et al.

自然语言处理

深度学习

Jinjie Ni, Qian Liu, Longxu Dou, et al.

基准

数据集

Chen Chen, ZeYang Hu, Fengjiao Chen, et al.

扩散模型

建模

Qingyue Long, Can Rong, Tong Li, et al.

视觉问答

机器人技术

Alexander Htet Kyaw, Richa Gupta, Dhruv Shah, et al.

Agent

AI for Science

Ludovico Mitchener, Angela Yiu, Benjamin Chang, et al.

LLM

推理

Abdelaziz Bounhar, Hadi Abdine, Evan Dufraisse, et al.

多模态

计算机视觉

Roman Beliy, Amit Zalcher, Jonathan Kogman, et al.

视觉问答

推理

Zhuoran Zhang, Tengyue Wang, Xilin Gong, et al.

多模态

多模态表征

Nikita Kachaev, Mikhail Kolosov, Daniil Zelezetsky, et al.

多模态

推理

Yiyang Zhou, Haoqin Tu, Zijun Wang, et al.

代码生成

多模态

Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, et al.

基准

LLM

Bertie Vidgen, Abby Fennelly, Evan Pinnix, et al.

视频理解

视觉问答

Sara Ghazanfari, Francesco Croce, Nicolas Flammarion, et al.

基准

推理

Thang Luong, Dawsen Hwang, Hoang H. Nguyen, et al.

高性能计算

AI for Science

Blaise Agüera y Arcas, Travis Beals, Maria Biggs, et al.

数据集

机器人技术

Kyungmin Lee, Sibeen Kim, Minho Park, et al.

寒武纪-S：迈向视频中的空间超感知

通过经验合成实现Agent学习的扩展

V-Thinker：与图像交互的思考

基于视频的思考：视频生成作为一种有前景的多模态推理范式

Amber生物分子模拟的最新进展

UltraHR-100K：基于大规模高质量数据集增强UHR图像合成

从五个维度到众多维度：大型语言模型作为精准且可解释的心理画像工具

基于节点的多模态生成：文本、音频、图像与视频

DR. WELL：基于符号世界模型的具身LLM多Agent协作中的动态推理与学习

Orion-MSP：用于表格上下文学习的多尺度稀疏注意力

TabTune：用于表格基础模型推理与微调的统一库

Step-Audio-EditX 技术报告

LEGO-Eval：面向通过工具增强合成3D具身环境的细粒度评估

UniAVGen：具有非对称跨模态交互的统一音频与视频生成

扩散语言模型是超数据学习者

UNO-Bench：一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准

基于扩散模型的动态人口分布感知人类轨迹生成

基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配

Kosmos：用于自主发现的AI Scientist

更短但不更差：通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

当可视化成为推理的第一步时：MIRA，一个用于视觉链式思维的基准测试

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

人工智能生产力指数（APEX）

帧链：通过帧感知推理推进多模态LLM中的视频理解

面向鲁棒的数学推理

面向未来基于空间的、高度可扩展的人工智能基础设施系统设计

PHUMA：物理基础的人形行走数据集

寒武纪-S：迈向视频中的空间超感知

通过经验合成实现Agent学习的扩展

V-Thinker：与图像交互的思考

基于视频的思考：视频生成作为一种有前景的多模态推理范式

Amber生物分子模拟的最新进展

UltraHR-100K：基于大规模高质量数据集增强UHR图像合成

从五个维度到众多维度：大型语言模型作为精准且可解释的心理画像工具

基于节点的多模态生成：文本、音频、图像与视频

DR. WELL：基于符号世界模型的具身LLM多Agent协作中的动态推理与学习

Orion-MSP：用于表格上下文学习的多尺度稀疏注意力

TabTune：用于表格基础模型推理与微调的统一库

Step-Audio-EditX 技术报告

LEGO-Eval：面向通过工具增强合成3D具身环境的细粒度评估

UniAVGen：具有非对称跨模态交互的统一音频与视频生成

扩散语言模型是超数据学习者

UNO-Bench：一个用于探索Omni模型中单模态与全模态之间组合规律的统一基准

基于扩散模型的动态人口分布感知人类轨迹生成

基于3D生成式AI与视觉语言模型的文本到机器人多组件物体装配

Kosmos：用于自主发现的AI Scientist

更短但不更差：通过简单样本作为长度正则化项实现数学领域的节俭推理RLVR

Brain-IT：通过Brain-Interaction Transformer从fMRI进行图像重建

模态冲突时：单模态推理不确定性如何主导MLLMs中的偏好动态

不要盲视你的VLA：面向OOD泛化的视觉表征对齐

当可视化成为推理的第一步时：MIRA，一个用于视觉链式思维的基准测试

VCode：一个以SVG作为符号化视觉表示的多模态编码基准

人工智能生产力指数（APEX）

帧链：通过帧感知推理推进多模态LLM中的视频理解

面向鲁棒的数学推理

面向未来基于空间的、高度可扩展的人工智能基础设施系统设计

PHUMA：物理基础的人形行走数据集

Command Palette

论文

Command Palette

论文

Command Palette

论文