HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

dLLM: Simple Diffusion Language Modeling

dLLM: Simple Diffusion Language Modeling

Diffusion Model

Text Generation

Zhanhui Zhou, Lingjie Chen, Hanghang Tong, et al.

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Reinforcement Learning

Zeyuan Liu, Jeonghye Kim, Xufang Luo, et al.

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Visual Question Answering

You Li, Chi Chen, Yanghao Li, et al.

OmniGAIA: Towards Native Omni-Modal AI Agents

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Intelligent Question Answering

Zhiheng Song, Jingshuai Zhang, Chuan Qin, et al.

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Hongrui Jia, Chaoya Jiang, Shikun Zhang, et al.

The Trinity of Consistency as a Defining Principle for General World Models

Multimodal Representation

Jingxuan Wei, Siyuan Li, Yuhang Xu, et al.

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Supervised Fine-Tuning

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Diffusion Model

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Reinforcement Learning

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Diffusion Model

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Preference Modeling

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM: Deep Research Evaluation with Agentic Metrics

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL: Forging Open Agentic Vision Models via RL

Video Understanding

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Multimodal Representation

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

Query-focused and Memory-aware Reranker for Long Context Processing

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Mo Yu, et al.

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Reinforcement Learning

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Diffusion Model

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Reinforcement Learning

Multimodal Representation

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Preference Modeling

Multi-Task Learning

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt: Recipes for Building Strong VLA Models

Multimodal Representation

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

A Very Big Video Reasoning Suite

Video Understanding

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

Selective Training for Large Vision Language Models via Visual Information Gain

Supervised Fine-Tuning

Seulbi Lee, Sangheum Hwang

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Visual Question Answering

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH: Spatially Aware Real-time Agentic Humans

Multimodal Representation

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Object Tracking

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Diffusion Model

Video Generation

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Reinforcement Learning

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

Arcee Trinity Large Technical Report

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

dLLM: Simple Diffusion Language Modeling

dLLM: Simple Diffusion Language Modeling

Diffusion Model

Text Generation

Zhanhui Zhou, Lingjie Chen, Hanghang Tong, et al.

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

Reinforcement Learning

Zeyuan Liu, Jeonghye Kim, Xufang Luo, et al.

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

Visual Question Answering

You Li, Chi Chen, Yanghao Li, et al.

OmniGAIA: Towards Native Omni-Modal AI Agents

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

Intelligent Question Answering

Zhiheng Song, Jingshuai Zhang, Chuan Qin, et al.

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

Hongrui Jia, Chaoya Jiang, Shikun Zhang, et al.

The Trinity of Consistency as a Defining Principle for General World Models

Multimodal Representation

Jingxuan Wei, Siyuan Li, Yuhang Xu, et al.

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Supervised Fine-Tuning

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Diffusion Model

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Reinforcement Learning

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Diffusion Model

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Preference Modeling

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM: Deep Research Evaluation with Agentic Metrics

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL: Forging Open Agentic Vision Models via RL

Video Understanding

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Multimodal Representation

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

Query-focused and Memory-aware Reranker for Long Context Processing

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Mo Yu, et al.

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Reinforcement Learning

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Diffusion Model

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Reinforcement Learning

Multimodal Representation

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Preference Modeling

Multi-Task Learning

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt: Recipes for Building Strong VLA Models

Multimodal Representation

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

A Very Big Video Reasoning Suite

Video Understanding

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

Selective Training for Large Vision Language Models via Visual Information Gain

Supervised Fine-Tuning

Seulbi Lee, Sangheum Hwang

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Visual Question Answering

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH: Spatially Aware Real-time Agentic Humans

Multimodal Representation

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Object Tracking

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Diffusion Model

Video Generation

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Reinforcement Learning

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

Arcee Trinity Large Technical Report

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

OmniGAIA: Towards Native Omni-Modal AI Agents

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

The Trinity of Consistency as a Defining Principle for General World Models

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

DREAM: Deep Research Evaluation with Agentic Metrics

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

PyVision-RL: Forging Open Agentic Vision Models via RL

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Query-focused and Memory-aware Reranker for Long Context Processing

On Data Engineering for Scaling LLM Terminal Capabilities

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

VLANeXt: Recipes for Building Strong VLA Models

A Very Big Video Reasoning Suite

Selective Training for Large Vision Language Models via Visual Information Gain

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

SARAH: Spatially Aware Real-time Agentic Humans

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arcee Trinity Large Technical Report

Imagination Helps Visual Reasoning, But Not Yet in Latent Space

OmniGAIA: Towards Native Omni-Modal AI Agents

MobilityBench: A Benchmark for Evaluating Route-Planning Agents in Real-World Mobility Scenarios

From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

The Trinity of Consistency as a Defining Principle for General World Models

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

DREAM: Deep Research Evaluation with Agentic Metrics

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

PyVision-RL: Forging Open Agentic Vision Models via RL

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Query-focused and Memory-aware Reranker for Long Context Processing

On Data Engineering for Scaling LLM Terminal Capabilities

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

VLANeXt: Recipes for Building Strong VLA Models

A Very Big Video Reasoning Suite

Selective Training for Large Vision Language Models via Visual Information Gain

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

SARAH: Spatially Aware Real-time Agentic Humans

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arcee Trinity Large Technical Report