HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

Reinforcement Learning

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Retrieval-Augmented Generation

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Diffusion Model

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Video Generation

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1: Mastering Physics Olympiads with Reinforcement Learning

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Computer Vision

Neural Networks

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

Latent Diffusion Model without Variational Autoencoder

Diffusion Model

Image Generation

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Visual Question Answering

Reinforcement Learning

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Reinforcement Learning

Diffusion Model

Tonghe Zhang, Chao Yu, Sichang Su, et al.

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Audio and Speech Processing

Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Reinforcement Learning

Shulin Liu, Dong Du, Tao Yang, et al.

Virtual Width Networks

Seed, Baisheng Li, Banggu Wu, et al.

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

Yuqi Yin, Yibo Fu, Siyuan Wang, et al.

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Code Generation

Zhen Yang, Wenyi Hong, Mingde Xu, et al.

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

Jingxuan Wei, Caijun Jia, Xi Bai, et al.

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

Image Generation

Wei Chow, Jiachun Pan, Yongyuan Liang, et al.

DoPE: Denoising Rotary Position Embedding

Jing Xiong, Liyang Fan, Hui Shen, et al.

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

Yang Li, Chunhe Xia, Chang Li, et al.

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

Video Understanding

Video Processing

Xu Zhao, Ruibo Ma, Jiaqi Chen, et al.

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Reinforcement Learning

Yixian Zhang, Shu'ang Yu, Tonghe Zhang, et al.

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Multimodal Representation

Xiaojun Jia, Sensen Gao, Simeng Qin, et al.

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Reinforcement Learning

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

Black-Box On-Policy Distillation of Large Language Models

Preference Modeling

Tianzhu Ye, Li Dong, Zewen Chi, et al.

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Video Understanding

Zhengyang Liang, Daoan Zhang, Huichi Zhou, et al.

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

Video Generation

PAN Team Institute of Foundation Models, Jiannan Xiang, Yi Gu, et al.

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

Diffusion Model

Image Generation

Aleksandr Razin, Danil Kazantsev, Ilya Makarov

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

Object Detection

Object Tracking

Mengqi Lei, Siqi Li, Yihong Wu, et al.

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Document Understanding

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Consensus Sampling for Safer Generative AI

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

Autonomous Driving

Dingji Wang, You Lu, Bihuan Chen, et al.

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

Learning to Trust: Bayesian Adaptation to Varying Suggester Reliability in Sequential Decision Making

Reinforcement Learning

Dylan M. Asmar, Mykel J. Kochenderfer

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Retrieval-Augmented Generation

Duolin Sun, Meixiu Long, Dan Yang, et al.

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

Diffusion Model

Ye Tian, Ling Yang, Jiongfan Yang, et al.

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Video Generation

Harold Haodong Chen, Disen Lan, Wen-Jie Shu, et al.

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Chunshi Wang, Junliang Ye, Yunhan Yang, et al.

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

Yunxin Li, Xinyu Chen, Shenyuan Jiang, et al.

P1: Mastering Physics Olympiads with Reinforcement Learning

Jiacheng Chen, Qianjia Cheng, Fangchen Yu, et al.

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Computer Vision

Neural Networks

Siyang Jiang, Hao Yang, Qipeng Xie, et al.

Latent Diffusion Model without Variational Autoencoder

Diffusion Model

Image Generation

Minglei Shi, Haolin Wang, Wenzhao Zheng, et al.

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Visual Question Answering

Reinforcement Learning

Sicheng Feng, Kaiwen Tuo, Song Wang, et al.

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Reinforcement Learning

Diffusion Model

Tonghe Zhang, Chao Yu, Sichang Su, et al.

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

Audio and Speech Processing

Yueqian Lin, Zhengmian Hu, Qinsi Wang, et al.

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Reinforcement Learning

Shulin Liu, Dong Du, Tao Yang, et al.

Virtual Width Networks

Seed, Baisheng Li, Banggu Wu, et al.

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

Yuqi Yin, Yibo Fu, Siyuan Wang, et al.

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Code Generation

Zhen Yang, Wenyi Hong, Mingde Xu, et al.

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

Jingxuan Wei, Caijun Jia, Xi Bai, et al.

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

Image Generation

Wei Chow, Jiachun Pan, Yongyuan Liang, et al.

DoPE: Denoising Rotary Position Embedding

Jing Xiong, Liyang Fan, Hui Shen, et al.

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

Yang Li, Chunhe Xia, Chang Li, et al.

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

Video Understanding

Video Processing

Xu Zhao, Ruibo Ma, Jiaqi Chen, et al.

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Reinforcement Learning

Yixian Zhang, Shu'ang Yu, Tonghe Zhang, et al.

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Multimodal Representation

Xiaojun Jia, Sensen Gao, Simeng Qin, et al.

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Reinforcement Learning

Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen

Black-Box On-Policy Distillation of Large Language Models

Preference Modeling

Tianzhu Ye, Li Dong, Zewen Chi, et al.

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

Video Understanding

Zhengyang Liang, Daoan Zhang, Huichi Zhou, et al.

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

Video Generation

PAN Team Institute of Foundation Models, Jiannan Xiang, Yi Gu, et al.

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

Diffusion Model

Image Generation

Aleksandr Razin, Danil Kazantsev, Ilya Makarov

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

Object Detection

Object Tracking

Mengqi Lei, Siqi Li, Yihong Wu, et al.

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Document Understanding

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Consensus Sampling for Safer Generative AI

Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

Autonomous Driving

Dingji Wang, You Lu, Bihuan Chen, et al.

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

P1: Mastering Physics Olympiads with Reinforcement Learning

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Latent Diffusion Model without Variational Autoencoder

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Virtual Width Networks

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

DoPE: Denoising Rotary Position Embedding

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Black-Box On-Policy Distillation of Large Language Models

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Consensus Sampling for Safer Generative AI

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs

MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation

TiViBench: Benchmarking Think-in-Video Reasoning for Video Generative Models

Part-X-MLLM: Part-aware 3D Multimodal Large Language Model

Uni-MoE-2.0-Omni: Scaling Language-Centric Omnimodal Large Model with Advanced MoE, Training and Data

P1: Mastering Physics Olympiads with Reinforcement Learning

Lancelot: Towards Efficient and Privacy-Preserving Byzantine-Robust Federated Learning within Fully Homomorphic Encryption

Latent Diffusion Model without Variational Autoencoder

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning

Voice Evaluation of Reasoning Ability: Diagnosing the Modality-Induced Performance Gap

MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Virtual Width Networks

AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

UI2CodeN: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

DoPE: Denoising Rotary Position Embedding

BRFL: A Blockchain-based Byzantine-Robust Federated Learning Model

Multi-Granularity Distribution Modeling for Video Watch Time Prediction via Exponential-Gaussian Mixture Network

SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling

Adversarial Attacks against Closed-Source MLLMs via Feature Optimal Alignment

Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO

Black-Box On-Policy Distillation of Large Language Models

UniVA: Universal Video Agent towards Open-Source Next-Generation Video Generalist

PAN: A World Model for General, Interactable, and Long-Horizon World Simulation

One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models

YOLOv13: Real-Time Object Detection with Hypergraph-Enhanced Adaptive Visual Perception

MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

Consensus Sampling for Safer Generative AI

Argus: Resilience-Oriented Safety Assurance Framework for End-to-End ADSs