HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Motion Attribution for Video Generation

Motion Attribution for Video Generation

Video Generation

Xindi Wu, Despoina Paschalidou, Jun Gao, et al.

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Multimodal Representation

Shaoan Wang, Yuanfei Luo, Xingyu Chen, et al.

Ministral 3

Text Generation

Alexander H. Liu, Kartik Khandelwal, Sandeep Subramanian, et al.

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Reinforcement Learning

Weihao Xuan, Qingcheng Zeng, Heli Qi, et al.

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Reinforcement Learning

Preference Modeling

Qiang Zhang, Boli Chen, Fanrui Zhang, et al.

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

Human-Computer Interaction

Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

Learning Latent Action World Models In The Wild

Embodied Intelligence

Quentin Garrido, Tushar Nagarajan, Basile Terver, et al.

Dr. Zero: Self-Evolving Search Agents without Training Data

Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, et al.

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Image Generation

Kewei Zhang, Ye Huang, Yufan Deng, et al.

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Intelligent Question Answering

Wenhao Zeng, Xuteng Zhang, Yuling Shi, et al.

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Code Generation

Jie Wu, Haoling Li, Xin Zhang, et al.

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Intelligent Question Answering

Jingcheng Hu, Yinmin Zhang, Shijie Shang, et al.

BabyVision: Visual Reasoning Beyond Language

Visual Question Answering

Image Understanding

Liang Chen, Weichu Xie, Yiyan Liang, et al.

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Video Understanding

Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, et al.

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

Retrieval-Augmented Generation

Xin Cheng, Wangding Zeng, Damai Dai, et al.

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

Xiaoshuai Song, Haofei Chang, Guanting Dong, et al.

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

Reinforcement Learning

Jiajie Zhang, Xin Lv, Ling Feng, et al.

CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

Eldad Matmon, Amit Bracha, Noam Rotstein, et al.

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Qiguang Chen, Yantao Du, Ziniu Li, et al.

MMFormalizer: Multimodal Autoformalization in the Wild

Jing Xiong, Qi Han, Yunta Hsieh, et al.

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

Geographic Information

Yuxiang Ji, Yong Wang, Ziyu Ma, et al.

Breaking the Sorting Barrier for Directed Single-Source Shortest Paths

High-Performance Computing

Ran Duan, Jiayi Mao, Xiao Mao, et al.

GR-Dexter Technical Report

Embodied Intelligence

Ruoshi Wen, Guangzeng Chen, Zhongren Cui, et al.

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Video Understanding

Shuming Liu, Mingchen Zhuge, Changsheng Zhao, et al.

RelayLLM: Efficient Reasoning via Collaborative Decoding

Text Generation

Chengsong Huang, Tong Zheng, Langlin Huang, et al.

Token-Level LLM Collaboration via FusionRoute

Text Generation

Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, et al.

RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

Image Processing

Yuan-Kang Lee, Kuan-Lin Chen, Chia-Che Chang, et al.

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

Machine Learning

Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, et al.

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Reinforcement Learning

Preference Modeling

Shih-Yang Liu, Xin Dong, Ximing Lu, et al.

MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

Reinforcement Learning

Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, et al.

From Failure to Mastery: Generating Hard Samples for Tool-use Agents

Bingguang Hao, Zengzhuang Xu, Yuntao Wen, et al.

Choreographing a World of Dynamic Objects

Video Generation

Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, et al.

Motion Attribution for Video Generation

Motion Attribution for Video Generation

Video Generation

Xindi Wu, Despoina Paschalidou, Jun Gao, et al.

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory

Multimodal Representation

Shaoan Wang, Yuanfei Luo, Xingyu Chen, et al.

Ministral 3

Text Generation

Alexander H. Liu, Kartik Khandelwal, Sandeep Subramanian, et al.

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

Reinforcement Learning

Weihao Xuan, Qingcheng Zeng, Heli Qi, et al.

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

Reinforcement Learning

Preference Modeling

Qiang Zhang, Boli Chen, Fanrui Zhang, et al.

ShowUI-$π$: Flow-based Generative Models as GUI Dexterous Hands

Human-Computer Interaction

Siyuan Hu, Kevin Qinghong Lin, Mike Zheng Shou

Learning Latent Action World Models In The Wild

Embodied Intelligence

Quentin Garrido, Tushar Nagarajan, Basile Terver, et al.

Dr. Zero: Self-Evolving Search Agents without Training Data

Zhenrui Yue, Kartikeya Upasani, Xianjun Yang, et al.

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

Image Generation

Kewei Zhang, Ye Huang, Yufan Deng, et al.

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

Intelligent Question Answering

Wenhao Zeng, Xuteng Zhang, Yuling Shi, et al.

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

Code Generation

Jie Wu, Haoling Li, Xin Zhang, et al.

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

Intelligent Question Answering

Jingcheng Hu, Yinmin Zhang, Shijie Shang, et al.

BabyVision: Visual Reasoning Beyond Language

Visual Question Answering

Image Understanding

Liang Chen, Weichu Xie, Yiyan Liang, et al.

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Video Understanding

Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, et al.

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

Retrieval-Augmented Generation

Xin Cheng, Wangding Zeng, Damai Dai, et al.

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

Xiaoshuai Song, Haofei Chang, Guanting Dong, et al.

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

Reinforcement Learning

Jiajie Zhang, Xin Lv, Ling Feng, et al.

CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

Eldad Matmon, Amit Bracha, Noam Rotstein, et al.

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

Qiguang Chen, Yantao Du, Ziniu Li, et al.

MMFormalizer: Multimodal Autoformalization in the Wild

Jing Xiong, Qi Han, Yunta Hsieh, et al.

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

Geographic Information

Yuxiang Ji, Yong Wang, Ziyu Ma, et al.

Breaking the Sorting Barrier for Directed Single-Source Shortest Paths

High-Performance Computing

Ran Duan, Jiayi Mao, Xiao Mao, et al.

GR-Dexter Technical Report

Embodied Intelligence

Ruoshi Wen, Guangzeng Chen, Zhongren Cui, et al.

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

Video Understanding

Shuming Liu, Mingchen Zhuge, Changsheng Zhao, et al.

RelayLLM: Efficient Reasoning via Collaborative Decoding

Text Generation

Chengsong Huang, Tong Zheng, Langlin Huang, et al.

Token-Level LLM Collaboration via FusionRoute

Text Generation

Nuoya Xiong, Yuhang Zhou, Hanqing Zeng, et al.

RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

Image Processing

Yuan-Kang Lee, Kuan-Lin Chen, Chia-Che Chang, et al.

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

Machine Learning

Maksim Velikanov, Ilyas Chahed, Jingwei Zuo, et al.

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Reinforcement Learning

Preference Modeling

Shih-Yang Liu, Xin Dong, Ximing Lu, et al.

MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

Reinforcement Learning

Shengtao Zhang, Jiaqian Wang, Ruiwen Zhou, et al.

From Failure to Mastery: Generating Hard Samples for Tool-use Agents

Bingguang Hao, Zengzhuang Xu, Yuntao Wen, et al.

Choreographing a World of Dynamic Objects

Video Generation

Yanzhe Lyu, Chen Geng, Karthik Dharmarajan, et al.

Ministral 3

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

ShowUI- $π$ : Flow-based Generative Models as GUI Dexterous Hands

Learning Latent Action World Models In The Wild

Dr. Zero: Self-Evolving Search Agents without Training Data

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

BabyVision: Visual Reasoning Beyond Language

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

MMFormalizer: Multimodal Autoformalization in the Wild

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

Breaking the Sorting Barrier for Directed Single-Source Shortest Paths

GR-Dexter Technical Report

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

RelayLLM: Efficient Reasoning via Collaborative Decoding

Token-Level LLM Collaboration via FusionRoute

RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

From Failure to Mastery: Generating Hard Samples for Tool-use Agents

Choreographing a World of Dynamic Objects

Ministral 3

The Confidence Dichotomy: Analyzing and Mitigating Miscalibration in Tool-Use Agents

ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking

ShowUI- $π$ : Flow-based Generative Models as GUI Dexterous Hands

Learning Latent Action World Models In The Wild

Dr. Zero: Self-Evolving Search Agents without Training Data

MHLA: Restoring Expressivity of Linear Attention via Token-Level Multi-Head

GlimpRouter: Efficient Collaborative Inference by Glimpsing One Token of Thoughts

X-Coder: Advancing Competitive Programming with Fully Synthetic Tasks, Solutions, and Tests

PaCoRe: Learning to Scale Test-Time Compute with Parallel Coordinated Reasoning

BabyVision: Visual Reasoning Beyond Language

Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning

Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models

EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis

Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards

CaricatureGS: Exaggerating 3D Gaussian Splatting Faces With Gaussian Curvature

The Molecular Structure of Thought: Mapping the Topology of Long Chain-of-Thought Reasoning

MMFormalizer: Multimodal Autoformalization in the Wild

Thinking with Map: Reinforced Parallel Map-Augmented Agent for Geolocalization

Breaking the Sorting Barrier for Directed Single-Source Shortest Paths

GR-Dexter Technical Report

VideoAuto-R1: Video Auto Reasoning via Thinking Once, Answering Twice

RelayLLM: Efficient Reasoning via Collaborative Decoding

Token-Level LLM Collaboration via FusionRoute

RL-AWB: Deep Reinforcement Learning for Auto White Balance Correction in Low-Light Night-time Scenes

Learnable Multipliers: Freeing the Scale of Language Model Matrix Layers

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory

From Failure to Mastery: Generating Hard Samples for Tool-use Agents

Choreographing a World of Dynamic Objects