HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems
at Once

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

Zhuoshi Pan, Qizhi Pei, Yu Li, et al.

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

Embodied Intelligence

Mingxian Lin, Wei Huang, Yitang Li, et al.

Reasoning or Memorization? Unreliable Results of Reinforcement Learning
Due to Data Contamination

Reinforcement Learning

Mingqi Wu, Zhihao Zhang, Qiaole Dong, et al.

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual
Dyadic Interactive Human Generation

Video Understanding

Youliang Zhang, Zhaoyang Li, Duomin Wang, et al.

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains

Xuzhao Li, Xuchen Li, Shiyu Hu, et al.

Sidechain conditioning and modeling for full-atom protein sequence design with FAMPNN

Talal Widatalla, Richard W. Shuai, Brian Hie, et al.

One Token to Fool LLM-as-a-Judge

Yulai Zhao, Haolin Liu, Dian Yu, et al.

From One to More: Contextual Part Latents for 3D Generation

Diffusion Model

Shaocong Dong, Lihe Ding, Xiao Chen, et al.

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for
Visual Reasoning

Visual Question Answering

Yana Wei, Liang Zhao, Jianjian Sun, et al.

Lumos-1: On Autoregressive Video Generation from a Unified Model
Perspective

Hangjie Yuan, Weihua Chen, Jun Cen, et al.

Neural-Driven Image Editing

Pengfei Zhou, Jie Xia, Xiaopeng Peng, et al.

KV Cache Steering for Inducing Reasoning in Small Language Models

Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, et al.

NeuralOS: Towards Simulating Operating Systems via Neural Generative
Models

Human-Computer Interaction

Video Understanding

Luke Rivard, Sun Sun, Hongyu Guo, et al.

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive
Neural Rendering

3D Machine Vision

Depth Estimation

Zhengqing Wang, Yuefan Wu, Jiacheng Chen, et al.

Test-Time Scaling with Reflective Generative Model

Zixiao Wang, Yuxin Wang, Xiaorui Wang, et al.

System-of-systems Modeling and Optimization: An Integrated Framework for Intermodal Mobility

Paul Saves, Jasper Bussemaker, R\u00e9mi Lafage, et al.

All-atom Diffusion Transformers: Unified generative modelling of molecules and materials

Diffusion Model

Chaitanya K. Joshi, Xiang Fu, Yi-Lun Liao, et al.

OST-Bench: Evaluating the Capabilities of MLLMs in Online
Spatio-temporal Scene Understanding

Visual Question Answering

JingLi Lin, Chenming Zhu, Runsen Xu, et al.

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and
Methodology

Visual Question Answering

Haochen Wang, Xiangtai Li, Zilong Huang, et al.

MIRIX: Multi-Agent Memory System for LLM-Based Agents

Visual Question Answering

Yu Wang, Xi Chen

Skywork-R1V3 Technical Report

Visual Question Answering

Wei Shen, Jiangbo Pei, Yi Peng, et al.

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Diffusion Model

Image Generation

Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, et al.

Scaling RL to Long Videos

Visual Question Answering

Yukang Chen, Wei Huang, Baifeng Shi, et al.

Critiques of World Models

Eric Xing, Mingkai Deng, Jinyu Hou, et al.

Is Diversity All You Need for Scalable Robotic Manipulation?

Multi-Task Learning

Modi Shi, Li Chen, Jin Chen, et al.

Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

Text Generation

Guokan Shang, Hadi Abdine, Ahmad Chamma, et al.

GTA1: GUI Test-time Scaling Agent

Human-Computer Interaction

Yan Yang, Dongxu Li, Yutong Dai, et al.

MedGen: Unlocking Medical Video Generation by Scaling
Granularly-annotated Medical Videos

Video Generation

Rongsheng Wang, Junying Chen, Ke Ji, et al.

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Peisong Wang, Ruotian Ma, Bang Zhang, et al.

The User-Centric Geo-Experience: An LLM-Powered Framework for Enhanced Planning, Navigation, and Dynamic Adaptation

Retrieval-Augmented Generation

Jieren Deng, Aleksandar Cvetkovic, Pak Kiu Chung, et al.

PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments

Natural Language Processing

Hanqun Cao, Xinyi Zhou, Zijun Gao, et al.

CriticLean: Critic-Guided Reinforcement Learning for Mathematical
Formalization

Supervised Fine-Tuning

Zhongyuan Peng, Yifan Yao, Kaijing Ma, et al.

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems
at Once

REST: Stress Testing Large Reasoning Models by Asking Multiple Problems at Once

Zhuoshi Pan, Qizhi Pei, Yu Li, et al.

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

Embodied Intelligence

Mingxian Lin, Wei Huang, Yitang Li, et al.

Reasoning or Memorization? Unreliable Results of Reinforcement Learning
Due to Data Contamination

Reinforcement Learning

Mingqi Wu, Zhihao Zhang, Qiaole Dong, et al.

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual
Dyadic Interactive Human Generation

Video Understanding

Youliang Zhang, Zhaoyang Li, Duomin Wang, et al.

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains

Xuzhao Li, Xuchen Li, Shiyu Hu, et al.

Sidechain conditioning and modeling for full-atom protein sequence design with FAMPNN

Talal Widatalla, Richard W. Shuai, Brian Hie, et al.

One Token to Fool LLM-as-a-Judge

Yulai Zhao, Haolin Liu, Dian Yu, et al.

From One to More: Contextual Part Latents for 3D Generation

Diffusion Model

Shaocong Dong, Lihe Ding, Xiao Chen, et al.

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for
Visual Reasoning

Visual Question Answering

Yana Wei, Liang Zhao, Jianjian Sun, et al.

Lumos-1: On Autoregressive Video Generation from a Unified Model
Perspective

Hangjie Yuan, Weihua Chen, Jun Cen, et al.

Neural-Driven Image Editing

Pengfei Zhou, Jie Xia, Xiaopeng Peng, et al.

KV Cache Steering for Inducing Reasoning in Small Language Models

Max Belitsky, Dawid J. Kopiczko, Michael Dorkenwald, et al.

NeuralOS: Towards Simulating Operating Systems via Neural Generative
Models

Human-Computer Interaction

Video Understanding

Luke Rivard, Sun Sun, Hongyu Guo, et al.

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive
Neural Rendering

3D Machine Vision

Depth Estimation

Zhengqing Wang, Yuefan Wu, Jiacheng Chen, et al.

Test-Time Scaling with Reflective Generative Model

Zixiao Wang, Yuxin Wang, Xiaorui Wang, et al.

System-of-systems Modeling and Optimization: An Integrated Framework for Intermodal Mobility

Paul Saves, Jasper Bussemaker, R\u00e9mi Lafage, et al.

All-atom Diffusion Transformers: Unified generative modelling of molecules and materials

Diffusion Model

Chaitanya K. Joshi, Xiang Fu, Yi-Lun Liao, et al.

OST-Bench: Evaluating the Capabilities of MLLMs in Online
Spatio-temporal Scene Understanding

Visual Question Answering

JingLi Lin, Chenming Zhu, Runsen Xu, et al.

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and
Methodology

Visual Question Answering

Haochen Wang, Xiangtai Li, Zilong Huang, et al.

MIRIX: Multi-Agent Memory System for LLM-Based Agents

Visual Question Answering

Yu Wang, Xi Chen

Skywork-R1V3 Technical Report

Visual Question Answering

Wei Shen, Jiangbo Pei, Yi Peng, et al.

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Diffusion Model

Image Generation

Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, et al.

Scaling RL to Long Videos

Visual Question Answering

Yukang Chen, Wei Huang, Baifeng Shi, et al.

Critiques of World Models

Eric Xing, Mingkai Deng, Jinyu Hou, et al.

Is Diversity All You Need for Scalable Robotic Manipulation?

Multi-Task Learning

Modi Shi, Li Chen, Jin Chen, et al.

Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

Text Generation

Guokan Shang, Hadi Abdine, Ahmad Chamma, et al.

GTA1: GUI Test-time Scaling Agent

Human-Computer Interaction

Yan Yang, Dongxu Li, Yutong Dai, et al.

MedGen: Unlocking Medical Video Generation by Scaling
Granularly-annotated Medical Videos

Video Generation

Rongsheng Wang, Junying Chen, Ke Ji, et al.

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Peisong Wang, Ruotian Ma, Bang Zhang, et al.

The User-Centric Geo-Experience: An LLM-Powered Framework for Enhanced Planning, Navigation, and Dynamic Adaptation

Retrieval-Augmented Generation

Jieren Deng, Aleksandar Cvetkovic, Pak Kiu Chung, et al.

PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments

Natural Language Processing

Hanqun Cao, Xinyi Zhou, Zijun Gao, et al.

CriticLean: Critic-Guided Reinforcement Learning for Mathematical
Formalization

Supervised Fine-Tuning

Zhongyuan Peng, Yifan Yao, Kaijing Ma, et al.

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains

Sidechain conditioning and modeling for full-atom protein sequence design with FAMPNN

One Token to Fool LLM-as-a-Judge

From One to More: Contextual Part Latents for 3D Generation

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Neural-Driven Image Editing

KV Cache Steering for Inducing Reasoning in Small Language Models

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Test-Time Scaling with Reflective Generative Model

System-of-systems Modeling and Optimization: An Integrated Framework for Intermodal Mobility

All-atom Diffusion Transformers: Unified generative modelling of molecules and materials

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

MIRIX: Multi-Agent Memory System for LLM-Based Agents

Skywork-R1V3 Technical Report

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Scaling RL to Long Videos

Critiques of World Models

Is Diversity All You Need for Scalable Robotic Manipulation?

Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

GTA1: GUI Test-time Scaling Agent

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

The User-Centric Geo-Experience: An LLM-Powered Framework for Enhanced Planning, Navigation, and Dynamic Adaptation

PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

SpeakerVid-5M: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation

VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains

Sidechain conditioning and modeling for full-atom protein sequence design with FAMPNN

One Token to Fool LLM-as-a-Judge

From One to More: Contextual Part Latents for 3D Generation

Open Vision Reasoner: Transferring Linguistic Cognitive Behavior for Visual Reasoning

Lumos-1: On Autoregressive Video Generation from a Unified Model Perspective

Neural-Driven Image Editing

KV Cache Steering for Inducing Reasoning in Small Language Models

NeuralOS: Towards Simulating Operating Systems via Neural Generative Models

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Test-Time Scaling with Reflective Generative Model

System-of-systems Modeling and Optimization: An Integrated Framework for Intermodal Mobility

All-atom Diffusion Transformers: Unified generative modelling of molecules and materials

OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding

Traceable Evidence Enhanced Visual Grounded Reasoning: Evaluation and Methodology

MIRIX: Multi-Agent Memory System for LLM-Based Agents

Skywork-R1V3 Technical Report

T-LoRA: Single Image Diffusion Model Customization Without Overfitting

Scaling RL to Long Videos

Critiques of World Models

Is Diversity All You Need for Scalable Robotic Manipulation?

Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

GTA1: GUI Test-time Scaling Agent

MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

The User-Centric Geo-Experience: An LLM-Powered Framework for Enhanced Planning, Navigation, and Dynamic Adaptation

PLAME: Leveraging Pretrained Language Models to Generate Enhanced Protein Multiple Sequence Alignments

CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization