HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making

Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making

Visual Question Answering

Kaitao Chen, Mianxin Liu, Daoming Zong, et al.

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Multimodal Representation

Hao Dong, Lijun Sheng, Jian Liang, et al.

GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

3D Machine Vision

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.

Pruning the Unsurprising: Efficient Code Reasoning via First-Token
Surprisal

Code Generation

Wenhao Zeng, Yaoning Wang, Chao Hu, et al.

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Diffusion Model

Image Inpainting

Seungyong Lee, Jeong-gi Kwak

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy
Optimization

Visual Question Answering

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.

Memp: Exploring Agent Procedural Memory

Runnan Fang, Yuan Liang, Xiaobin Wang, et al.

Perch 2.0: The Bittern Lesson for Bioacoustics

Audio Classification

Multi-Task Learning

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

Retrieval-Augmented Generation

Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Xinrun Xu, Pi Bu, Ye Wang, et al.

Genie Envisioner: A Unified World Foundation Platform for Robotic
Manipulation

Video Generation

Yue Liao, Pengfei Zhou, Siyuan Huang, et al.

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.

On the Generalization of SFT: A Reinforcement Learning Perspective with
Reward Rectification

Supervised Fine-Tuning

Reinforcement Learning

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.

Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

Yu Yuan, Lili Zhao, Wei Chen, et al.

GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

Retrieval-Augmented Generation

Ge Chang, Jinbo Su, Jiacheng Liu, et al.

CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Jueon Park, Yein Park, Minju Song, et al.

Efficient Agents: Building Effective Agents While Reducing Cost

Ningning Wang, Xavier Hu, Pai Liu, et al.

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI: Verifiable Long-Chain GUI Dataset

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL Technical Report

Document Understanding

Video Understanding

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

The GAN is dead; long live the GAN! A Modern GAN Baseline

Computer Vision

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

NVILA: Efficient Frontier Visual Language Models

Video Understanding

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling

Zhe Chen, Weiyun Wang, Yue Cao, et al.

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Multimodal Representation

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

Baichuan-Omni Technical Report

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3: Next-Token Prediction is All You Need

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2: Visual Language Models for Image and Video Understanding

Image Understanding

Video Understanding

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 Technical Report

Code Generation

An Yang, Baosong Yang, Binyuan Hui, et al.

Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making

Mediator-Guided Multi-Agent Collaboration among Open-Source Models for Medical Decision-Making

Visual Question Answering

Kaitao Chen, Mianxin Liu, Daoming Zong, et al.

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Multimodal Representation

Hao Dong, Lijun Sheng, Jian Liang, et al.

GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

3D Machine Vision

Mikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, et al.

Pruning the Unsurprising: Efficient Code Reasoning via First-Token
Surprisal

Code Generation

Wenhao Zeng, Yaoning Wang, Chao Hu, et al.

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Diffusion Model

Image Inpainting

Seungyong Lee, Jeong-gi Kwak

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy
Optimization

Visual Question Answering

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, et al.

Memp: Exploring Agent Procedural Memory

Runnan Fang, Yuan Liang, Xiaobin Wang, et al.

Perch 2.0: The Bittern Lesson for Bioacoustics

Audio Classification

Multi-Task Learning

Bart van Merriënboer, Vincent Dumoulin, Jenny Hamer, et al.

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

Retrieval-Augmented Generation

Wenxuan Shen, Mingjia Wang, Yaochen Wang, et al.

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

Yuhan Zhang, Long Zhuo, Ziyang Chu, et al.

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Xinrun Xu, Pi Bu, Ye Wang, et al.

Genie Envisioner: A Unified World Foundation Platform for Robotic
Manipulation

Video Generation

Yue Liao, Pengfei Zhou, Siyuan Huang, et al.

R-Zero: Self-Evolving Reasoning LLM from Zero Data

Chengsong Huang, Wenhao Yu, Xiaoyang Wang, et al.

On the Generalization of SFT: A Reinforcement Learning Perspective with
Reward Rectification

Supervised Fine-Tuning

Reinforcement Learning

Yongliang Wu, Yizhou Zhou, Zhou Ziheng, et al.

Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

Yu Yuan, Lili Zhao, Wei Chen, et al.

GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

Retrieval-Augmented Generation

Ge Chang, Jinbo Su, Jiacheng Liu, et al.

CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Jueon Park, Yein Park, Minju Song, et al.

Efficient Agents: Building Effective Agents While Reducing Cost

Ningning Wang, Xavier Hu, Pai Liu, et al.

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI: Verifiable Long-Chain GUI Dataset

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL Technical Report

Document Understanding

Video Understanding

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

The GAN is dead; long live the GAN! A Modern GAN Baseline

Computer Vision

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Junjie Zhou, Zheng Liu, Ze Liu, et al.

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

NVILA: Efficient Frontier Visual Language Models

Video Understanding

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

Expanding Performance Boundaries of Open-Source Multimodal Models with
Model, Data, and Test-Time Scaling

Zhe Chen, Weiyun Wang, Yue Cao, et al.

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Multimodal Representation

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

Baichuan-Omni Technical Report

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3: Next-Token Prediction is All You Need

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2: Visual Language Models for Image and Video Understanding

Image Understanding

Video Understanding

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 Technical Report

Code Generation

An Yang, Baosong Yang, Binyuan Hui, et al.

GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Memp: Exploring Agent Procedural Memory

Perch 2.0: The Bittern Lesson for Bioacoustics

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

R-Zero: Self-Evolving Reasoning LLM from Zero Data

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Efficient Agents: Building Effective Agents While Reducing Cost

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

VeriGUI: Verifiable Long-Chain GUI Dataset

Qwen2.5-VL Technical Report

The GAN is dead; long live the GAN! A Modern GAN Baseline

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

NVILA: Efficient Frontier Visual Language Models

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Baichuan-Omni Technical Report

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Emu3: Next-Token Prediction is All You Need

CogVLM2: Visual Language Models for Image and Video Understanding

Qwen2 Technical Report

GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Memp: Exploring Agent Procedural Memory

Perch 2.0: The Bittern Lesson for Bioacoustics

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

R-Zero: Self-Evolving Reasoning LLM from Zero Data

On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification

Simulating Human-Like Learning Dynamics with LLM-Empowered Agents

GRAIL:Learning to Interact with Large Knowledge Graphs for Retrieval Augmented Reasoning

CoTox: Chain-of-Thought-Based Molecular Toxicity Reasoning and Prediction

Efficient Agents: Building Effective Agents While Reducing Cost

Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

VeriGUI: Verifiable Long-Chain GUI Dataset

Qwen2.5-VL Technical Report

The GAN is dead; long live the GAN! A Modern GAN Baseline

MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

NVILA: Efficient Frontier Visual Language Models

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

VisionZip: Longer is Better but Not Necessary in Vision Language Models

Baichuan-Omni Technical Report

MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Emu3: Next-Token Prediction is All You Need

CogVLM2: Visual Language Models for Image and Video Understanding

Qwen2 Technical Report