HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Klear: Unified Multi-Task Audio-Video Joint Generation

Klear: Unified Multi-Task Audio-Video Joint Generation

Jun Wang, Chunyu Qiang, Yuxin Guo, et al.

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Jinyang Wu, Guocheng Zhai, Ruihan Jin, et al.

Benchmark^2: Systematic Evaluation of LLM Benchmarks

Qi Qian, Chengsong Huang, Jingwen Xu, et al.

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

Jiawei Chen, Xintian Shen, Lihao Zheng, et al.

Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Supervised Fine-Tuning

Muxi Diao, Lele Yang, Wuxuan Gong, et al.

Diversity or Precision? A Deep Dive into Next Token Prediction

Reinforcement Learning

Supervised Fine-Tuning

Haoyuan Wu, Hai Wang, Jiajia Wu, et al.

Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases

Code Generation

Sherman Wong, Zhenting Qi, Zhaodong Wang, et al.

DreamStyle: A Unified Framework for Video Stylization

Video Processing

Mengtian Li, Jinshu Chen, Songtao Zhao, et al.

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Image Generation

Ruiyan Han, Zhen Fang, XinYu Sun, et al.

LTX-2: Efficient Joint Audio-Visual Foundation Model

Diffusion Model

Yoav HaCohen, Benny Brazowski, Nisan Chiprut, et al.

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

Yiheng Wang, Yixin Chen, Shuo Li, et al.

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

Audio and Speech Processing

Donghua Yu, Zhengyuan Lin, Chen Yang, et al.

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Depth Estimation

3D Machine Vision

Hao Yu, Haotong Lin, Jiawei Wang, et al.

Adaptation of Agentic AI

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, et al.

Large Video Planner Enables Generalizable Robot Control

Embodied Intelligence

Boyuan Chen, Tianyuan Zhang, Haoran Geng, et al.

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

3D Machine Vision

Shuai Yuan, Yantai Yang, Xiaotian Yang, et al.

GARDO: Reinforcing Diffusion Models without Reward Hacking

Reinforcement Learning

Diffusion Model

Haoran He, Yuxiao Ye, Jie Liu, et al.

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

Reinforcement Learning

Diffusion Model

Shikun Sun, Liao Qu, Huichao Zhang, et al.

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

Diffusion Model

Xu Guo, Fulong Ye, Xinghui Li, et al.

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

Image Generation

Huichao Zhang, Liao Qu, Yiheng Liu, et al.

K-EXAONE Technical Report

Text Generation

Eunbi Choi, Kibong Choi, Seokhee Hong, et al.

The Hunger Game Debate: On the Emergence of Over-Competition in Multi-Agent Systems

Xinbei Ma, Ruotian Ma, Xingyu Chen, et al.

Training AI Co-Scientists Using Rubric Rewards

Shashwat Goel, Rishi Hazra, Dulhan Jayalath, et al.

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

3D Machine Vision

Depth Estimation

Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

Diffusion Model

Video Understanding

Zhe Huang, Hao Wen, Aiming Hao, et al.

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Multimodal Representation

Yong Xien Chng, Tao Hu, Wenwen Tong, et al.

Human-Computer Interaction

Embodied Intelligence

Taekyung Ki, Sangwon Jang, Jaehyeong Jo, et al.

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Video Generation

Yuxue Yang, Lue Fan, Ziqi Shi, et al.

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Yuchen Shi, Yuzheng Cai, Siqi Cai, et al.

IQuest-Coder-V1 Technical Report

Code Generation

Jian Yang, Wei Zhang, Shawn Guo, et al.

Recursive Language Models

Alex L. Zhang, Tim Kraska, Omar Khattab

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

Video Generation

Diffusion Model

Jibin Song, Mingi Kwon, Jaeseok Jeong, et al.

Klear: Unified Multi-Task Audio-Video Joint Generation

Klear: Unified Multi-Task Audio-Video Joint Generation

Jun Wang, Chunyu Qiang, Yuxin Guo, et al.

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Jinyang Wu, Guocheng Zhai, Ruihan Jin, et al.

Benchmark^2: Systematic Evaluation of LLM Benchmarks

Qi Qian, Chengsong Huang, Jingwen Xu, et al.

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

Jiawei Chen, Xintian Shen, Lihao Zheng, et al.

Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Supervised Fine-Tuning

Muxi Diao, Lele Yang, Wuxuan Gong, et al.

Diversity or Precision? A Deep Dive into Next Token Prediction

Reinforcement Learning

Supervised Fine-Tuning

Haoyuan Wu, Hai Wang, Jiajia Wu, et al.

Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases

Code Generation

Sherman Wong, Zhenting Qi, Zhaodong Wang, et al.

DreamStyle: A Unified Framework for Video Stylization

Video Processing

Mengtian Li, Jinshu Chen, Songtao Zhao, et al.

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

Image Generation

Ruiyan Han, Zhen Fang, XinYu Sun, et al.

LTX-2: Efficient Joint Audio-Visual Foundation Model

Diffusion Model

Yoav HaCohen, Benny Brazowski, Nisan Chiprut, et al.

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

Yiheng Wang, Yixin Chen, Shuo Li, et al.

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

Audio and Speech Processing

Donghua Yu, Zhengyuan Lin, Chen Yang, et al.

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Depth Estimation

3D Machine Vision

Hao Yu, Haotong Lin, Jiawei Wang, et al.

Adaptation of Agentic AI

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, et al.

Large Video Planner Enables Generalizable Robot Control

Embodied Intelligence

Boyuan Chen, Tianyuan Zhang, Haoran Geng, et al.

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

3D Machine Vision

Shuai Yuan, Yantai Yang, Xiaotian Yang, et al.

GARDO: Reinforcing Diffusion Models without Reward Hacking

Reinforcement Learning

Diffusion Model

Haoran He, Yuxiao Ye, Jie Liu, et al.

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

Reinforcement Learning

Diffusion Model

Shikun Sun, Liao Qu, Huichao Zhang, et al.

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

Diffusion Model

Xu Guo, Fulong Ye, Xinghui Li, et al.

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

Image Generation

Huichao Zhang, Liao Qu, Yiheng Liu, et al.

K-EXAONE Technical Report

Text Generation

Eunbi Choi, Kibong Choi, Seokhee Hong, et al.

The Hunger Game Debate: On the Emergence of Over-Competition in Multi-Agent Systems

Xinbei Ma, Ruotian Ma, Xingyu Chen, et al.

Training AI Co-Scientists Using Rubric Rewards

Shashwat Goel, Rishi Hazra, Dulhan Jayalath, et al.

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

3D Machine Vision

Depth Estimation

Jiewen Chan, Zhenjun Zhao, Yu-Lun Liu

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

Diffusion Model

Video Understanding

Zhe Huang, Hao Wen, Aiming Hao, et al.

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Multimodal Representation

Yong Xien Chng, Tao Hu, Wenwen Tong, et al.

Human-Computer Interaction

Embodied Intelligence

Taekyung Ki, Sangwon Jang, Jaehyeong Jo, et al.

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Video Generation

Yuxue Yang, Lue Fan, Ziqi Shi, et al.

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

Yuchen Shi, Yuzheng Cai, Siqi Cai, et al.

IQuest-Coder-V1 Technical Report

Code Generation

Jian Yang, Wei Zhang, Shawn Guo, et al.

Recursive Language Models

Alex L. Zhang, Tim Kraska, Omar Khattab

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

Video Generation

Diffusion Model

Jibin Song, Mingi Kwon, Jaeseok Jeong, et al.

Benchmark^2: Systematic Evaluation of LLM Benchmarks

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Diversity or Precision? A Deep Dive into Next Token Prediction

Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases

DreamStyle: A Unified Framework for Video Stylization

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

LTX-2: Efficient Joint Audio-Visual Foundation Model

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Adaptation of Agentic AI

Large Video Planner Enables Generalizable Robot Control

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

GARDO: Reinforcing Diffusion Models without Reward Hacking

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

K-EXAONE Technical Report

The Hunger Game Debate: On the Emergence of Over-Competition in Multi-Agent Systems

Training AI Co-Scientists Using Rubric Rewards

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

IQuest-Coder-V1 Technical Report

Recursive Language Models

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation

Benchmark^2: Systematic Evaluation of LLM Benchmarks

MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning

Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Diversity or Precision? A Deep Dive into Next Token Prediction

Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases

DreamStyle: A Unified Framework for Video Stylization

UniCorn: Towards Self-Improving Unified Multimodal Models through Self-Generated Supervision

LTX-2: Efficient Joint Audio-Visual Foundation Model

SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

MOSS Transcribe Diarize: Accurate Transcription with Speaker Diarization

InfiniDepth: Arbitrary-Resolution and Fine-Grained Depth Estimation with Neural Implicit Fields

Adaptation of Agentic AI

Large Video Planner Enables Generalizable Robot Control

InfiniteVGGT: Visual Geometry Grounded Transformer for Endless Streams

GARDO: Reinforcing Diffusion Models without Reward Hacking

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer

NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

K-EXAONE Technical Report

The Hunger Game Debate: On the Emergence of Over-Competition in Multi-Agent Systems

Training AI Co-Scientists Using Rubric Rewards

AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Taming Hallucinations: Boosting MLLMs' Video Understanding via Counterfactual Video Generation

SenseNova-MARS: Empowering Multimodal Agentic Reasoning and Search via Reinforcement Learning

Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

NeoVerse: Enhancing 4D World Model with in-the-wild Monocular Videos

Youtu-Agent: Scaling Agent Productivity with Automated Generation and Hybrid Policy Optimization

IQuest-Coder-V1 Technical Report

Recursive Language Models

FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation