HyperAI超神经

具有表示自编码器的扩散Transformer

扩散模型

图像生成

Boyang Zheng, Nanye Ma, Shengbang Tong, et al.

QeRL：超越效率——面向LLMs的量化增强型强化学习

强化学习

模型训练

Wei Huang, Yi Ge, Shuai Yang, et al.

Transformer

监督式微调

Edward Y. Chang, Ethan Y. Chang

Agent

推理

Yongchao Chen, Jiefeng Chen, Rui Meng, et al.

推理

基准

Yi Lu, Jianing Wang, Linsen Guo, et al.

基准

多模态

Qiguang Chen, Zheng Yan, Mingda Yang, et al.

多模态

统一多模态

Yumin Choi, Dongki Kim, Jinheon Baek, et al.

扩散模型

图像生成

Hyunmin Cho, Donghoon Ahn, Susung Hong, et al.

多模态

统一多模态

Kang Liao, Size Wu, Zhonghua Wu, et al.

具身智能

统一多模态

Suwhan Choi, Jaeyoon Jung, Haebin Seong, et al.

视频生成

代码生成

Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou

自然语言处理

医学

Emma Kondrup, Anne Imouza

Transformer

LLM

Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.

推理

LLM

Yoonjeon Kim, Doohyuk Jang, Eunho Yang

Agent

检索增强生成

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

多模态

图像生成

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

视频生成

图像修复

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

统一多模态

视频生成

Cong Wei, Quande Liu, Zixuan Ye, et al.

Transformer

自然语言处理

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

多模态

推理

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

LLM

推理

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

基准

音频和语音处理

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

LLM

监督式微调

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

视觉问答

Transformer

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

监督式微调

强化学习

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

视频生成

文生视频

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

强化学习

多模态表征

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

音频和语音处理

人机交互

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

统一多模态

扩散模型

Yi Xin, Qi Qin, Siqi Luo, et al.

LLM

Transformer

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

具有表示自编码器的扩散Transformer

扩散模型

图像生成

Boyang Zheng, Nanye Ma, Shengbang Tong, et al.

QeRL：超越效率——面向LLMs的量化增强型强化学习

强化学习

模型训练

Wei Huang, Yi Ge, Shuai Yang, et al.

Transformer

监督式微调

Edward Y. Chang, Ethan Y. Chang

Agent

推理

Yongchao Chen, Jiefeng Chen, Rui Meng, et al.

推理

基准

Yi Lu, Jianing Wang, Linsen Guo, et al.

基准

多模态

Qiguang Chen, Zheng Yan, Mingda Yang, et al.

多模态

统一多模态

Yumin Choi, Dongki Kim, Jinheon Baek, et al.

扩散模型

图像生成

Hyunmin Cho, Donghoon Ahn, Susung Hong, et al.

多模态

统一多模态

Kang Liao, Size Wu, Zhonghua Wu, et al.

具身智能

统一多模态

Suwhan Choi, Jaeyoon Jung, Haebin Seong, et al.

视频生成

代码生成

Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou

自然语言处理

医学

Emma Kondrup, Anne Imouza

Transformer

LLM

Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.

推理

LLM

Yoonjeon Kim, Doohyuk Jang, Eunho Yang

Agent

检索增强生成

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

多模态

图像生成

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

视频生成

图像修复

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

统一多模态

视频生成

Cong Wei, Quande Liu, Zixuan Ye, et al.

Transformer

自然语言处理

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

多模态

推理

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

LLM

推理

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

基准

音频和语音处理

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

LLM

监督式微调

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

视觉问答

Transformer

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

监督式微调

强化学习

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

视频生成

文生视频

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

强化学习

多模态表征

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

音频和语音处理

人机交互

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

统一多模态

扩散模型

Yi Xin, Qi Qin, Siqi Luo, et al.

LLM

Transformer

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

无需反向传播的威尔逊环：一种用于检测不变性与顺序敏感性的实用诊断方法

TUMIX：带有工具使用混合的多Agent测试时扩展

R-Horizon：你的大型推理模型在广度与深度上究竟能走多远？

AutoPR：让我们自动化你的学术晋升！

多模态提示优化：为何不利用多种模态来提升MLLMs？

旁路增强引导用于幻觉抑制的扩散采样

用相机思考：一种面向以相机为中心的感知与生成的统一多模态模型

D2E：在桌面数据上扩展视觉-动作预训练以实现向具身AI的迁移

Code2Video：一种以代码为中心的教育视频生成范式

博士偏见：人工智能驱动的医疗指导中的社会不平等

LLM的二阶优化潜力：基于完整高斯-牛顿法的研究

元认知增强推理模型：自对齐强化学习

从何到因：一种基于证据的化学反应条件推理多Agent系统

DreamOmni2：基于多模态指令的编辑与生成

VideoCanvas：通过上下文条件实现任意时空补丁的统一视频补全

UniVideo：视频的统一理解、生成与编辑

MemMamba：重新思考状态空间模型中的记忆模式

MM-HELIX：通过整体平台与自适应混合策略优化提升多模态长链反思推理

PromptCoT 2.0：面向大型语言模型推理的提示合成扩展

Extract-0：用于文档信息提取的专用语言模型

OmniRetarget：面向人形机器人全身运动与操作及场景交互的交互保持型数据生成

WildSpeech-Bench：在真实场景中对端到端SpeechLLM进行基准测试

针对大型语言模型对齐的内部激活值的Token感知编辑

旨在学习：面向低资源视觉-语言建模的Token级动态门控

通过早期经验进行Agent学习

MATRIX：用于交互感知视频生成的掩码轨迹对齐

RLinf-VLA：一种统一且高效的VLA+RL训练框架

SHANKS：用于语音语言模型的同步听与思

Lumina-DiMOO：一种用于多模态生成与理解的全模态扩散大型语言模型

缓存到缓存：大型语言模型之间的直接语义通信

无需反向传播的威尔逊环：一种用于检测不变性与顺序敏感性的实用诊断方法

TUMIX：带有工具使用混合的多Agent测试时扩展

R-Horizon：你的大型推理模型在广度与深度上究竟能走多远？

AutoPR：让我们自动化你的学术晋升！

多模态提示优化：为何不利用多种模态来提升MLLMs？

旁路增强引导用于幻觉抑制的扩散采样

用相机思考：一种面向以相机为中心的感知与生成的统一多模态模型

D2E：在桌面数据上扩展视觉-动作预训练以实现向具身AI的迁移

Code2Video：一种以代码为中心的教育视频生成范式

博士偏见：人工智能驱动的医疗指导中的社会不平等

LLM的二阶优化潜力：基于完整高斯-牛顿法的研究

元认知增强推理模型：自对齐强化学习

从何到因：一种基于证据的化学反应条件推理多Agent系统

DreamOmni2：基于多模态指令的编辑与生成

VideoCanvas：通过上下文条件实现任意时空补丁的统一视频补全

UniVideo：视频的统一理解、生成与编辑

MemMamba：重新思考状态空间模型中的记忆模式

MM-HELIX：通过整体平台与自适应混合策略优化提升多模态长链反思推理

PromptCoT 2.0：面向大型语言模型推理的提示合成扩展

Extract-0：用于文档信息提取的专用语言模型

OmniRetarget：面向人形机器人全身运动与操作及场景交互的交互保持型数据生成

WildSpeech-Bench：在真实场景中对端到端SpeechLLM进行基准测试

针对大型语言模型对齐的内部激活值的Token感知编辑

旨在学习：面向低资源视觉-语言建模的Token级动态门控

通过早期经验进行Agent学习

MATRIX：用于交互感知视频生成的掩码轨迹对齐

RLinf-VLA：一种统一且高效的VLA+RL训练框架

SHANKS：用于语音语言模型的同步听与思

Lumina-DiMOO：一种用于多模态生成与理解的全模态扩散大型语言模型

缓存到缓存：大型语言模型之间的直接语义通信

Command Palette

论文

Command Palette

论文

Command Palette

论文