HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Reinforcement Learning

Yang Liu, Enxi Wang, Yufei Gao, et al.

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Code Generation

Ali Slim, Haydar Hamieh, Jawad Kotaich, et al.

ELT: Elastic Looped Transformers for Visual Generation

Image Generation

Video Generation

Sahil Goyal, Swayam Agrawal, Gautham Govind, et al.

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Diffusion Model

Text Generation

Lifeng Chen, Tianqi You, Hao Liu, et al.

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

Zile Wang, Zexiang Liu, Jaixing Li, et al.

EXAONE 4.5 Technical Report

Eunbi Choi, Kibong Choi, Sehyun Chun, et al.

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Diffusion Model

Dewei Zhou, You Li, Zongxin Yang, et al.

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Xiangru Jian, Hao Xu, Wei Pang, et al.

WildDet3D: Scaling Promptable 3D Detection in the Wild

3D Machine Vision

Object Detection

Weikai Huang, Jieyu Zhang, Sijun Li, et al.

Autoreason: Self-Refinement That Knows When to Stop

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Yanwen Zou, Chenyang Shi, Wenyu Yu, et al.

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Junyao Gao, Sibo Liu, Jiaxing Li, et al.

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Diffusion Model

Zhengyang Sun, Yu Chen, Xin Zhou, et al.

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Embodied Intelligence

Tencent Robotics X, HY Vision Team, Xumin Yu, et al.

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Yuxuan Zhang, Yubo Wang, Yipeng Zhu, et al.

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Supervised Fine-Tuning

Qihan Ren, Peng Wang, Ruikun Cai, et al.

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Ziyu Ma, Shidong Yang, Yuxiang Ji, et al.

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Document Understanding

Zhang Li, Zhibo Lin, Qiang Liu, et al.

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Image Generation

Teng Li, Ziyuan Huang, Cong Chen, et al.

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Video Generation

InSpatio Team, Donghui Shen, Guofeng Zhang, et al.

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Junchao Yi, Rui Zhao, Jiahao Tang, et al.

MARS: Enabling Autoregressive Models Multi-Token Generation

Text Generation

Ziqi Jin, Lei Wang, Ziwei Luo, et al.

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

Image Generation

Lei Zhang, Junjiao Tian, Zhipeng Fan, et al.

RAGEN-2: Reasoning Collapse in Agentic RL

Zihan Wang, Chi Gui, Xing Jin, et al.

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

Diffusion Model

Hyunsoo Cha, Wonjung Woo, Byungjun Kim, et al.

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Difan Jiao, Qianfeng Wen, Blair Yang, et al.

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Code Generation

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Learning to Retrieve from Agent Trajectories

Retrieval-Augmented Generation

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Bowen Ye, Rang Li, Qibin Yang, et al.

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Video Understanding

Visual Question Answering

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Code Generation

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Multimodal Representation

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

The Past Is Not Past: Memory-Enhanced Dynamic Reward Shaping

Reinforcement Learning

Yang Liu, Enxi Wang, Yufei Gao, et al.

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

QuanBench+: A Unified Multi-Framework Benchmark for LLM-Based Quantum Code Generation

Code Generation

Ali Slim, Haydar Hamieh, Jawad Kotaich, et al.

ELT: Elastic Looped Transformers for Visual Generation

Image Generation

Video Generation

Sahil Goyal, Swayam Agrawal, Gautham Govind, et al.

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Diffusion Model

Text Generation

Lifeng Chen, Tianqi You, Hao Liu, et al.

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

Zile Wang, Zexiang Liu, Jaixing Li, et al.

EXAONE 4.5 Technical Report

Eunbi Choi, Kibong Choi, Sehyun Chun, et al.

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

Diffusion Model

Dewei Zhou, You Li, Zongxin Yang, et al.

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

Xiangru Jian, Hao Xu, Wei Pang, et al.

WildDet3D: Scaling Promptable 3D Detection in the Wild

3D Machine Vision

Object Detection

Weikai Huang, Jieyu Zhang, Sijun Li, et al.

Autoreason: Self-Refinement That Knows When to Stop

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

Yanwen Zou, Chenyang Shi, Wenyu Yu, et al.

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

Junyao Gao, Sibo Liu, Jiaxing Li, et al.

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

Diffusion Model

Zhengyang Sun, Yu Chen, Xin Zhou, et al.

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

Embodied Intelligence

Tencent Robotics X, HY Vision Team, Xumin Yu, et al.

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Yuxuan Zhang, Yubo Wang, Yipeng Zhu, et al.

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

Supervised Fine-Tuning

Qihan Ren, Peng Wang, Ruikun Cai, et al.

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

Ziyu Ma, Shidong Yang, Yuxiang Ji, et al.

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

Document Understanding

Zhang Li, Zhibo Lin, Qiang Liu, et al.

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

Image Generation

Teng Li, Ziyuan Huang, Cong Chen, et al.

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

Video Generation

InSpatio Team, Donghui Shen, Guofeng Zhang, et al.

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

Junchao Yi, Rui Zhao, Jiahao Tang, et al.

MARS: Enabling Autoregressive Models Multi-Token Generation

Text Generation

Ziqi Jin, Lei Wang, Ziwei Luo, et al.

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

Image Generation

Lei Zhang, Junjiao Tian, Zhipeng Fan, et al.

RAGEN-2: Reasoning Collapse in Agentic RL

Zihan Wang, Chi Gui, Xing Jin, et al.

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

Diffusion Model

Hyunsoo Cha, Wonjung Woo, Byungjun Kim, et al.

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

Difan Jiao, Qianfeng Wen, Blair Yang, et al.

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Code Generation

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Learning to Retrieve from Agent Trajectories

Retrieval-Augmented Generation

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Bowen Ye, Rang Li, Qibin Yang, et al.

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

Video Understanding

Visual Question Answering

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

Code Generation

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

Multimodal Representation

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

ELT: Elastic Looped Transformers for Visual Generation

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

EXAONE 4.5 Technical Report

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

WildDet3D: Scaling Promptable 3D Detection in the Wild

Autoreason: Self-Refinement That Knows When to Stop

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

MARS: Enabling Autoregressive Models Multi-Token Generation

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

RAGEN-2: Reasoning Collapse in Agentic RL

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Learning to Retrieve from Agent Trajectories

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models

ELT: Elastic Looped Transformers for Visual Generation

ECHO: Efficient Chest X-ray Report Generation with One-step Block Diffusion

Matrix-Game 3.0: Real-Time and Streaming Interactive World Model with Long-Horizon Memory

EXAONE 4.5 Technical Report

RefineAnything: Multimodal Region-Specific Refinement for Perfect Local Details

FORGE:Fine-grained Multimodal Evaluation for Manufacturing Scenarios

WildDet3D: Scaling Promptable 3D Detection in the Wild

Autoreason: Self-Refinement That Knows When to Stop

ActiveGlasses: Learning Manipulation with Active Vision from Ego-centric Human Demonstration

MegaStyle: Constructing Diverse and Scalable Style Dataset via Consistent Text-to-Image Style Mapping

When Numbers Speak: Aligning Textual Numerals and Visual Instances in Text-to-Video Diffusion Models

HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents

ClawBench: Can AI Agents Complete Everyday Online Tasks?

Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

SkillClaw: Let Skills Evolve Collectively with Agentic Evolver

MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios

TC-AE: Unlocking Token Capacity for Deep Compression Autoencoders

INSPATIO-WORLD: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling

FlowInOne:Unifying Multimodal Generation as Image-in, Image-out Flow Matching

MARS: Enabling Autoregressive Models Multi-Token Generation

Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning

RAGEN-2: Reasoning Collapse in Agentic RL

Vanast: Virtual Try-On with Human Image Animation via Synthetic Triplet Supervision

ThinkTwice: Jointly Optimizing Large Language Models for Reasoning and Self-Refinement

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Learning to Retrieve from Agent Trajectories

Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents

Video-MME-v2: Towards the Next Stage in Benchmarks for Comprehensive Video Understanding

GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models