HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Dataset Help

Products

News Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Supervised Fine-Tuning

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Diffusion Model

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Reinforcement Learning

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Diffusion Model

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Preference Modeling

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM: Deep Research Evaluation with Agentic Metrics

DREAM: Deep Research Evaluation with Agentic Metrics

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL: Forging Open Agentic Vision Models via RL

PyVision-RL: Forging Open Agentic Vision Models via RL

Video Understanding

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

From Perception to Action: An Interactive Benchmark for Vision Reasoning

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Multimodal Representation

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

Query-focused and Memory-aware Reranker for Long Context Processing

Query-focused and Memory-aware Reranker for Long Context Processing

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Mo Yu, et al.

On Data Engineering for Scaling LLM Terminal Capabilities

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Reinforcement Learning

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Diffusion Model

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Reinforcement Learning

Multimodal Representation

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Preference Modeling

Multi-Task Learning

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt: Recipes for Building Strong VLA Models

VLANeXt: Recipes for Building Strong VLA Models

Multimodal Representation

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

A Very Big Video Reasoning Suite

A Very Big Video Reasoning Suite

Video Understanding

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

Selective Training for Large Vision Language Models via Visual Information Gain

Selective Training for Large Vision Language Models via Visual Information Gain

Supervised Fine-Tuning

Seulbi Lee, Sangheum Hwang

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Visual Question Answering

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH: Spatially Aware Real-time Agentic Humans

SARAH: Spatially Aware Real-time Agentic Humans

Multimodal Representation

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Object Tracking

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Diffusion Model

Video Generation

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Reinforcement Learning

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

Arcee Trinity Large Technical Report

Arcee Trinity Large Technical Report

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Dongrui Liu, Yi Yu, Jie Zhang, et al.

Unified Latents (UL): How to train your latents

Unified Latents (UL): How to train your latents

Diffusion Model

Image Generation

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, et al.

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Haiyang Xu, Xi Zhang, Haowei Liu, et al.

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

Diffusion Model

Jintao Zhang, Kai Jiang, Chendong Xiang, et al.

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Yifan Wu, Yiran Peng, Yiyu Chen, et al.

Bounded Model Checking for Unbounded Client Server Systems

Bounded Model Checking for Unbounded Client Server Systems

Ramchandra Phawade, Tephilla Prince, S. Sheerazuddin

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Retrieval-Augmented Generation

Junhong Lin, Bing Zhang, Song Wang, et al.

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL

Supervised Fine-Tuning

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

SkyReels-V4: Multi-modal Video-Audio Generation, Inpainting and Editing model

Diffusion Model

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

Reinforcement Learning

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

DreamID-Omni: Unified Framework for Controllable Human-Centric Audio-Video Generation

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Diffusion Model

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

HyTRec: A Hybrid Temporal-Aware Attention Architecture for Long Behavior Sequential Recommendation

Preference Modeling

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM: Deep Research Evaluation with Agentic Metrics

DREAM: Deep Research Evaluation with Agentic Metrics

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL: Forging Open Agentic Vision Models via RL

PyVision-RL: Forging Open Agentic Vision Models via RL

Video Understanding

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

From Perception to Action: An Interactive Benchmark for Vision Reasoning

From Perception to Action: An Interactive Benchmark for Vision Reasoning

Multimodal Representation

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

Query-focused and Memory-aware Reranker for Long Context Processing

Query-focused and Memory-aware Reranker for Long Context Processing

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Mo Yu, et al.

On Data Engineering for Scaling LLM Terminal Capabilities

On Data Engineering for Scaling LLM Terminal Capabilities

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

DSDR: Dual-Scale Diversity Regularization for Exploration in LLM Reasoning

Reinforcement Learning

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Diffusion Model

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

TOPReward: Token Probabilities as Hidden Zero-Shot Rewards for Robotics

Reinforcement Learning

Multimodal Representation

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

ManCAR: Manifold-Constrained Latent Reasoning with Adaptive Test-Time Computation for Sequential Recommendation

Preference Modeling

Multi-Task Learning

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt: Recipes for Building Strong VLA Models

VLANeXt: Recipes for Building Strong VLA Models

Multimodal Representation

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

A Very Big Video Reasoning Suite

A Very Big Video Reasoning Suite

Video Understanding

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

Selective Training for Large Vision Language Models via Visual Information Gain

Selective Training for Large Vision Language Models via Visual Information Gain

Supervised Fine-Tuning

Seulbi Lee, Sangheum Hwang

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Visual Question Answering

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH: Spatially Aware Real-time Agentic Humans

SARAH: Spatially Aware Real-time Agentic Humans

Multimodal Representation

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Object Tracking

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Diffusion Model

Video Generation

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Reinforcement Learning

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

Arcee Trinity Large Technical Report

Arcee Trinity Large Technical Report

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5

Dongrui Liu, Yi Yu, Jie Zhang, et al.

Unified Latents (UL): How to train your latents

Unified Latents (UL): How to train your latents

Diffusion Model

Image Generation

Jonathan Heek, Emiel Hoogeboom, Thomas Mensink, et al.

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Mobile-Agent-v3.5: Multi-platform Fundamental GUI Agents

Haiyang Xu, Xi Zhang, Haowei Liu, et al.

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning

Diffusion Model

Jintao Zhang, Kai Jiang, Chendong Xiang, et al.

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Yifan Wu, Yiran Peng, Yiyu Chen, et al.

Bounded Model Checking for Unbounded Client Server Systems

Bounded Model Checking for Unbounded Client Server Systems

Ramchandra Phawade, Tephilla Prince, S. Sheerazuddin

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Retrieval-Augmented Generation

Junhong Lin, Bing Zhang, Song Wang, et al.