HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

MiA-Signature: Approximating Global Activation for Long-Context Understanding

MiA-Signature: Approximating Global Activation for Long-Context Understanding

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Mo Yu, et al.

Continuous Latent Diffusion Language Model

Continuous Latent Diffusion Language Model

Hongcan Guo, Qinyu Zhao, Yian Zhao, et al.

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Reinforcement Learning

Yaorui Shi, Yuxin Chen, Zhengxi Lu, et al.

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

Retrieval-Augmented Generation

Zhuofeng Li, Haoxiang Zhang, Cong Wei, et al.

MathNet: A GLOBAL MULTIMODAL BENCHMARK FOR MATHEMATICAL REASONING AND RETRIEVAL

Retrieval-Augmented Generation

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

Diffusion Model

Supervised Fine-Tuning

Dongyang Jiang, Xin Jin, Dongyang Liu, et al.

ZAYA1-8B Technical Report

Supervised Fine-Tuning

Robert Washbourne, Rishi Iyer, Tomas Figliolia, et al.

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Diffusion Model

Yunhan Yang, Chunshi Wang, Junliang Ye, et al.

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Autonomous Driving

Xin Zhou, Dingkang Liang, Xiwu Chen, et al.

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Retrieval-Augmented Generation

Shuang Chen, Kaituo Feng, Hangting Chen, et al.

RLDX-1 Technical Report

3D Machine Vision

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, et al.

Stream-T1: Test-Time Scaling for Streaming Video Generation

Diffusion Model

Video Generation

Yijing Tu, Shaojin Wu, Mengqi Huang, et al.

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Video Generation

Bin Wu, Mengqi Huang, Shaojin Wu, et al.

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

Retrieval-Augmented Generation

Wenjin Hou, Shangpin Peng, Weinong Wang, et al.

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

Chandan Singh, Yan Shuo Tan, Weijia Xu, et al.

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

Jianing Wang, Linsen Guo, Zhengyu Chen, et al.

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Jinchao Li, Yunxin Li, Chenrui Zhao, et al.

Hallucinations Undermine Trust; Metacognition is a Way Forward

Intelligent Question Answering

Gal Yona, Mor Geva, Yossi Matias

X2SAM: Any Segmentation in Images and Videos

Image Segmentation

Hao Wang, Limeng Qiao, Chi Zhang, et al.

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du, Rui Ye, Shuo Tang, et al.

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Supervised Fine-Tuning

Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Code Generation

John Yang, Kilian Lieret, Jeffrey Ma, et al.

Efficient Accelerated Graph Edit Distance Computation on GPU

Face Recognition

Adel Dabah, Andreas Herten

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Text Generation

Timothy Douglas, Roben Delos Reyes, Asanobu Kitamoto

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Mathias Bourgoin, Arthur Breitman, Pierrick Couderc, et al.

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

High-Performance Computing

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Image Generation

Image Inpainting

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

MiA-Signature: Approximating Global Activation for Long-Context Understanding

MiA-Signature: Approximating Global Activation for Long-Context Understanding

Retrieval-Augmented Generation

Yuqing Li, Jiangnan Li, Mo Yu, et al.

Continuous Latent Diffusion Language Model

Continuous Latent Diffusion Language Model

Hongcan Guo, Qinyu Zhao, Yian Zhao, et al.

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Reinforcement Learning

Yaorui Shi, Yuxin Chen, Zhengxi Lu, et al.

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

Retrieval-Augmented Generation

Zhuofeng Li, Haoxiang Zhang, Cong Wei, et al.

MathNet: A GLOBAL MULTIMODAL BENCHMARK FOR MATHEMATICAL REASONING AND RETRIEVAL

Retrieval-Augmented Generation

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

Diffusion Model

Supervised Fine-Tuning

Dongyang Jiang, Xin Jin, Dongyang Liu, et al.

ZAYA1-8B Technical Report

Supervised Fine-Tuning

Robert Washbourne, Rishi Iyer, Tomas Figliolia, et al.

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

Diffusion Model

Yunhan Yang, Chunshi Wang, Junliang Ye, et al.

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

Autonomous Driving

Xin Zhou, Dingkang Liang, Xiwu Chen, et al.

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

Retrieval-Augmented Generation

Shuang Chen, Kaituo Feng, Hangting Chen, et al.

RLDX-1 Technical Report

3D Machine Vision

Dongyoung Kim, Huiwon Jang, Myungkyu Koo, et al.

Stream-T1: Test-Time Scaling for Streaming Video Generation

Diffusion Model

Video Generation

Yijing Tu, Shaojin Wu, Mengqi Huang, et al.

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Video Generation

Bin Wu, Mengqi Huang, Shaojin Wu, et al.

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

Retrieval-Augmented Generation

Wenjin Hou, Shangpin Peng, Weinong Wang, et al.

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

Chandan Singh, Yan Shuo Tan, Weijia Xu, et al.

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

Jianing Wang, Linsen Guo, Zhengyu Chen, et al.

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Jinchao Li, Yunxin Li, Chenrui Zhao, et al.

Hallucinations Undermine Trust; Metacognition is a Way Forward

Intelligent Question Answering

Gal Yona, Mor Geva, Yossi Matias

X2SAM: Any Segmentation in Images and Videos

Image Segmentation

Hao Wang, Limeng Qiao, Chi Zhang, et al.

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

Yuwen Du, Rui Ye, Shuo Tang, et al.

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

Supervised Fine-Tuning

Sudong Wang, Weiquan Huang, Xiaomin Yu, et al.

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

Ruofeng Yang, Yongcan Li, Shuai Li

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Code Generation

John Yang, Kilian Lieret, Jeffrey Ma, et al.

Efficient Accelerated Graph Edit Distance Computation on GPU

Face Recognition

Adel Dabah, Andreas Herten

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Text Generation

Timothy Douglas, Roben Delos Reyes, Asanobu Kitamoto

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Mathias Bourgoin, Arthur Breitman, Pierrick Couderc, et al.

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Abhinav Singh Parmar

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Maria-Eirini Pegia, Dimitrios Stefanopoulos, Björn Þór Jónsson, et al.

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Retrieval-Augmented Generation

Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

High-Performance Computing

Kyungmi Lee, Zhiye Song, Eun Kyung Lee, et al.

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Image Generation

Image Inpainting

Hanzhong Guo, Jie Wu, Jie Liu, et al.

Efficient Training on Multiple Consumer GPUs with RoundPipe

Yibin Luo, Shiwei Gao, Huichuan Zheng, et al.

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

MathNet: A GLOBAL MULTIMODAL BENCHMARK FOR MATHEMATICAL REASONING AND RETRIEVAL

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

ZAYA1-8B Technical Report

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

RLDX-1 Technical Report

Stream-T1: Test-Time Scaling for Streaming Video Generation

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Hallucinations Undermine Trust; Metacognition is a Way Forward

X2SAM: Any Segmentation in Images and Videos

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Efficient Accelerated Graph Edit Distance Computation on GPU

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Efficient Training on Multiple Consumer GPUs with RoundPipe

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

MathNet: A GLOBAL MULTIMODAL BENCHMARK FOR MATHEMATICAL REASONING AND RETRIEVAL

D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models

ZAYA1-8B Technical Report

PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

HERMES++: Toward a Unified Driving World Model for 3D Scene Understanding and Generation

OpenSearch-VL: An Open Recipe for Frontier Multimodal Search Agents

RLDX-1 Technical Report

Stream-T1: Test-Time Scaling for Streaming Video Generation

Stream-R1: Reliability-Perplexity Aware Reward Distillation for Streaming Video Generation

Uni-OPD: Unifying On-Policy Distillation with a Dual-Perspective Recipe

AGENTIC-IMODELS: Evolving agentic interpretability tools via autoresearch

HEAVYSKILL: Heavy Thinking as the Inner Skill in Agentic Harness

WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments

Hallucinations Undermine Trust; Metacognition is a Way Forward

X2SAM: Any Segmentation in Images and Videos

OpenSeeker-v2: Pushing the Limits of Search Agents with Informative and High-Difficulty Trajectories

PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

ARIS: Autonomous Research via Adversarial Multi-Agent Collaboration

ProgramBench: Can Language Models Rebuild Programs From Scratch?

Efficient Accelerated Graph Edit Distance Computation on GPU

LLM-based uncertainty assessment of social media situational signals for crisis reporting

Canonical LST: A Protocol-Native Liquid Staking Solution for Tezos

Separating Intelligence from Execution: A Workflow Engine for the Model Context Protocol

Understanding the Performance Plateau in Text-to-Video Retrieval: A Comprehensive Empirical and Linguistic Analysis

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

EnergAIzer: Fast and Accurate GPU Power Estimation Framework for AI Workloads

Leveraging Verifier-Based Reinforcement Learning in Image Editing

Efficient Training on Multiple Consumer GPUs with RoundPipe