HyperAI超神经

CoDA：通过扩散适应进行编码LM

扩散模型

文本生成

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2：高效块扩散LLM

扩散模型

模型训练

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

推理

神经网络

Alexia Jolicoeur-Martineau

智能问答

Agent

Shreyas Singh, Kunal Singh, Pradeep Moturi

监督式微调

LLM

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

LLM

Transformer

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

推理

LLM

Jiaxi Li, Yucheng Shi, Jin Lu, et al.

LLM

文本生成

Kuofeng Gao, Yiming Li, Chao Du, et al.

视频生成

推理

Ziqi Huang, Ning Yu, Gordon Chen, et al.

监督式微调

LLM

Yunlong Tang, Jing Bi, Pinxin Liu, et al.

文生视频

统一多模态

Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

LLM

Transformer

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, et al.

多模态

LLM

Shijian Deng, Kai Wang, Tianyu Yang, et al.

扩散模型

机器人技术

Jiahang Cao, Yize Huang, Hanzhong Guo, et al.

LLM

偏好

ShengYun Peng, Eric Smith, Ivan Evtimov, et al.

多模态

Transformer

Zichen Wen, Shaobo Wang, Yufa Zhou, et al.

多模态

视觉问答

Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, et al.

基准

LLM

Yanxu Chen, Zijun Yao, Yantao Liu, et al.

模型训练

人机交互

Wentao Zhang, Yang Young Lu, Yuntian Deng

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

3D 生成

机器视觉 3D

Bo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, et al.

强化学习

LLM

Runzhe Zhan, Yafu Li, Zhi Wang, et al.

扩散模型

视频生成

Justin Cui, Jie Wu, Ming Li, et al.

代码生成

LLM

Yuling Shi, Yichun Qian, Hongyu Zhang, et al.

强化学习

监督式微调

Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, et al.

LLM

监督式微调

Dong Bok Lee, Seanie Lee, Sangwoo Park, et al.

强化学习

LLM

Ziniu Li, Congliang Chen, Tianyun Yang, et al.

LLM

强化学习

Zichen Liu, Anya Sims, Keyu Duan, et al.

强化学习

具身智能

Hengtao Li, Pengxiang Ding, Runze Suo, et al.

强化学习

推理

Fang Wu, Weihao Xuan, Heli Qi, et al.

具身智能

多模态

Yida Xue, Mingjun Mao, Xiangyuan Ru, et al.

强化学习

监督式微调

Zhepei Wei, Xiao Yang, Kai Sun, et al.

监督式微调

LLM

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

CoDA：通过扩散适应进行编码LM

扩散模型

文本生成

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2：高效块扩散LLM

扩散模型

模型训练

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

推理

神经网络

Alexia Jolicoeur-Martineau

智能问答

Agent

Shreyas Singh, Kunal Singh, Pradeep Moturi

监督式微调

LLM

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

LLM

Transformer

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

推理

LLM

Jiaxi Li, Yucheng Shi, Jin Lu, et al.

LLM

文本生成

Kuofeng Gao, Yiming Li, Chao Du, et al.

视频生成

推理

Ziqi Huang, Ning Yu, Gordon Chen, et al.

监督式微调

LLM

Yunlong Tang, Jing Bi, Pinxin Liu, et al.

文生视频

统一多模态

Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

LLM

Transformer

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, et al.

多模态

LLM

Shijian Deng, Kai Wang, Tianyu Yang, et al.

扩散模型

机器人技术

Jiahang Cao, Yize Huang, Hanzhong Guo, et al.

LLM

偏好

ShengYun Peng, Eric Smith, Ivan Evtimov, et al.

多模态

Transformer

Zichen Wen, Shaobo Wang, Yufa Zhou, et al.

多模态

视觉问答

Shruthan Radhakrishna, Aman Tiwari, Aanjaneya Shukla, et al.

基准

LLM

Yanxu Chen, Zijun Yao, Yantao Liu, et al.

模型训练

人机交互

Wentao Zhang, Yang Young Lu, Yuntian Deng

3D 生成

机器视觉 3D

Bo-Hsu Ke, You-Zhe Xie, Yu-Lun Liu, et al.

强化学习

LLM

Runzhe Zhan, Yafu Li, Zhi Wang, et al.

扩散模型

视频生成

Justin Cui, Jie Wu, Ming Li, et al.

代码生成

LLM

Yuling Shi, Yichun Qian, Hongyu Zhang, et al.

强化学习

监督式微调

Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, et al.

LLM

监督式微调

Dong Bok Lee, Seanie Lee, Sangwoo Park, et al.

强化学习

LLM

Ziniu Li, Congliang Chen, Tianyun Yang, et al.

LLM

强化学习

Zichen Liu, Anya Sims, Keyu Duan, et al.

强化学习

具身智能

Hengtao Li, Pengxiang Ding, Runze Suo, et al.

强化学习

推理

Fang Wu, Weihao Xuan, Heli Qi, et al.

具身智能

多模态

Yida Xue, Mingjun Mao, Xiangyuan Ru, et al.

强化学习

监督式微调

Zhepei Wei, Xiao Yang, Kai Sun, et al.

监督式微调

LLM

Shaobo Wang, Jiaming Wang, Jiajun Zhang, et al.

少即是多：使用小型网络进行递归推理

Fathom-DeepResearch：解锁长时程信息检索与综合以赋能SLMs

TaTToo：面向表格推理中测试时扩展的工具基础思维PRM

语言模型的混合架构：系统性分析与设计洞察

MITS：通过点互信息增强LLM的树搜索推理

对大型语言模型的不可察觉的越狱攻击

VChain：用于视频生成推理的视觉思维链

视频-LMM后训练：基于大型多模态模型的视频推理深度探究

Paper2Video：从科学论文自动生成视频

微缩扩展FP4量化中的承诺与性能之间的差距

多模态大语言模型中的自提升：一项综述

通过测试时分布级组合改进基于扩散或基于流的机器人策略

大型推理模型从有缺陷的思维中学习到更好的对齐

通过渐进一致性蒸馏实现高效的多模态大型语言模型

Apriel-1.5-15b-Thinker

StockBench：LLM Agent 能否在现实市场中盈利地交易股票？

交互式训练：反馈驱动的神经网络优化

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

ExGRPO：从经验中学习推理

Self-Forcing++：迈向分钟级高质量视频生成

LongCodeZip：为Code LLM压缩长上下文

PIPer：通过在线强化学习实现设备端环境配置

多领域测试时扩展的奖励模型再思考

背包强化学习：通过优化预算分配解锁LLM的探索能力

GEM：面向智能体LLM的健身房

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

OceanGym：水下具身Agent的基准环境

TruthRL：通过强化学习激励LLM说真话

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

少即是多：使用小型网络进行递归推理

Fathom-DeepResearch：解锁长时程信息检索与综合以赋能SLMs

TaTToo：面向表格推理中测试时扩展的工具基础思维PRM

语言模型的混合架构：系统性分析与设计洞察

MITS：通过点互信息增强LLM的树搜索推理

对大型语言模型的不可察觉的越狱攻击

VChain：用于视频生成推理的视觉思维链

视频-LMM后训练：基于大型多模态模型的视频推理深度探究

Paper2Video：从科学论文自动生成视频

微缩扩展FP4量化中的承诺与性能之间的差距

多模态大语言模型中的自提升：一项综述

通过测试时分布级组合改进基于扩散或基于流的机器人策略

大型推理模型从有缺陷的思维中学习到更好的对齐

通过渐进一致性蒸馏实现高效的多模态大型语言模型

Apriel-1.5-15b-Thinker

StockBench：LLM Agent 能否在现实市场中盈利地交易股票？

交互式训练：反馈驱动的神经网络优化

StealthAttack：通过密度引导的幻觉实现鲁棒的3D Gaussian Splatting投毒

ExGRPO：从经验中学习推理

Self-Forcing++：迈向分钟级高质量视频生成

LongCodeZip：为Code LLM压缩长上下文

PIPer：通过在线强化学习实现设备端环境配置

多领域测试时扩展的奖励模型再思考

背包强化学习：通过优化预算分配解锁LLM的探索能力

GEM：面向智能体LLM的健身房

VLA-RFT：基于世界模拟器中验证奖励的视觉-语言-动作强化微调

DeepSearch：通过蒙特卡洛树搜索克服强化学习中可验证奖励的瓶颈

OceanGym：水下具身Agent的基准环境

TruthRL：通过强化学习激励LLM说真话

赢得剪枝赌局：一种面向高效监督微调的联合样本与token剪枝统一方法

Command Palette

论文

Command Palette

论文

Command Palette

论文