HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

Reinforcement Learning

Jinghao Zhang, Naishan Zheng, Ruilin Li, et al.

Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by
Refining Belief States

Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States

Diffusion Model

Text Generation

Qinglin Zhu, Yizhen Yao, Runcong Zhao, et al.

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni
MLLMs

Video Understanding

Caorui Li, Yu Chen, Yiyan Ji, et al.

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic
Embodied Capabilities

Yu Qi, Haibo Zhao, Ziyu Guo, et al.

Diffusion Transformers with Representation Autoencoders

Diffusion Model

Image Generation

Boyang Zheng, Nanye Ma, Shengbang Tong, et al.

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning
for LLMs

Reinforcement Learning

Wei Huang, Yi Ge, Shuai Yang, et al.

Inverse-Free Wilson Loops for Transformers: A Practical Diagnostic for Invariance and Order Sensitivity

Supervised Fine-Tuning

Edward Y. Chang, Ethan Y. Chang

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

Yongchao Chen, Jiefeng Chen, Rui Meng, et al.

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

Yi Lu, Jianing Wang, Linsen Guo, et al.

AutoPR: Let's Automate Your Academic Promotion!

Qiguang Chen, Zheng Yan, Mingda Yang, et al.

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for
MLLMs

Yumin Choi, Dongki Kim, Jinheon Baek, et al.

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Diffusion Model

Image Generation

Hyunmin Cho, Donghoon Ahn, Susung Hong, et al.

Thinking with Camera: A Unified Multimodal Model for Camera-Centric
Understanding and Generation

Kang Liao, Size Wu, Zhonghua Wu, et al.

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Embodied Intelligence

Suwhan Choi, Jaeyoon Jung, Haebin Seong, et al.

Code2Video: A Code-centric Paradigm for Educational Video Generation

Video Generation

Code Generation

Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Natural Language Processing

Emma Kondrup, Anne Imouza

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

Yoonjeon Kim, Doohyuk Jang, Eunho Yang

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Retrieval-Augmented Generation

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

DreamOmni2: Multimodal Instruction-based Editing and Generation

Image Generation

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal
Patches via In-Context Conditioning

Video Generation

Image Inpainting

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo: Unified Understanding, Generation, and Editing for Videos

Video Generation

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba: Rethinking Memory Patterns in State Space Model

Natural Language Processing

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with
Holistic Platform and Adaptive Hybrid Policy Optimization

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Extract-0: A Specialized Language Model for Document Information Extraction

Supervised Fine-Tuning

Document Understanding

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Reinforcement Learning

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Audio and Speech Processing

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Supervised Fine-Tuning

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Visual Question Answering

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

Agent Learning via Early Experience

Supervised Fine-Tuning

Reinforcement Learning

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

Video Generation

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

RLFR: Extending Reinforcement Learning for LLMs with Flow Environment

Reinforcement Learning

Jinghao Zhang, Naishan Zheng, Ruilin Li, et al.

Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by
Refining Belief States

Latent Refinement Decoding: Enhancing Diffusion-Based Language Models by Refining Belief States

Diffusion Model

Text Generation

Qinglin Zhu, Yizhen Yao, Runcong Zhao, et al.

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni
MLLMs

Video Understanding

Caorui Li, Yu Chen, Yiyan Ji, et al.

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic
Embodied Capabilities

Yu Qi, Haibo Zhao, Ziyu Guo, et al.

Diffusion Transformers with Representation Autoencoders

Diffusion Model

Image Generation

Boyang Zheng, Nanye Ma, Shengbang Tong, et al.

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning
for LLMs

Reinforcement Learning

Wei Huang, Yi Ge, Shuai Yang, et al.

Inverse-Free Wilson Loops for Transformers: A Practical Diagnostic for Invariance and Order Sensitivity

Supervised Fine-Tuning

Edward Y. Chang, Ethan Y. Chang

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

Yongchao Chen, Jiefeng Chen, Rui Meng, et al.

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

Yi Lu, Jianing Wang, Linsen Guo, et al.

AutoPR: Let's Automate Your Academic Promotion!

Qiguang Chen, Zheng Yan, Mingda Yang, et al.

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for
MLLMs

Yumin Choi, Dongki Kim, Jinheon Baek, et al.

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Diffusion Model

Image Generation

Hyunmin Cho, Donghoon Ahn, Susung Hong, et al.

Thinking with Camera: A Unified Multimodal Model for Camera-Centric
Understanding and Generation

Kang Liao, Size Wu, Zhonghua Wu, et al.

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Embodied Intelligence

Suwhan Choi, Jaeyoon Jung, Haebin Seong, et al.

Code2Video: A Code-centric Paradigm for Educational Video Generation

Video Generation

Code Generation

Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

Natural Language Processing

Emma Kondrup, Anne Imouza

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

Yoonjeon Kim, Doohyuk Jang, Eunho Yang

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

Retrieval-Augmented Generation

Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.

DreamOmni2: Multimodal Instruction-based Editing and Generation

Image Generation

Bin Xia, Bohao Peng, Yuechen Zhang, et al.

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal
Patches via In-Context Conditioning

Video Generation

Image Inpainting

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo: Unified Understanding, Generation, and Editing for Videos

Video Generation

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba: Rethinking Memory Patterns in State Space Model

Natural Language Processing

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with
Holistic Platform and Adaptive Hybrid Policy Optimization

Xiangyu Zhao, Junming Lin, Tianhao Liang, et al.

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Xueliang Zhao, Wei Wu, Jian Guan, et al.

Extract-0: A Specialized Language Model for Document Information Extraction

Supervised Fine-Tuning

Document Understanding

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

Reinforcement Learning

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Audio and Speech Processing

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Supervised Fine-Tuning

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Visual Question Answering

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

Agent Learning via Early Experience

Supervised Fine-Tuning

Reinforcement Learning

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

Video Generation

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

Diffusion Transformers with Representation Autoencoders

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Inverse-Free Wilson Loops for Transformers: A Practical Diagnostic for Invariance and Order Sensitivity

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

AutoPR: Let's Automate Your Academic Promotion!

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Code2Video: A Code-centric Paradigm for Educational Video Generation

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

DreamOmni2: Multimodal Instruction-based Editing and Generation

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

UniVideo: Unified Understanding, Generation, and Editing for Videos

MemMamba: Rethinking Memory Patterns in State Space Model

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Extract-0: A Specialized Language Model for Document Information Extraction

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Agent Learning via Early Experience

MATRIX: Mask Track Alignment for Interaction-aware Video Generation

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities

Diffusion Transformers with Representation Autoencoders

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Inverse-Free Wilson Loops for Transformers: A Practical Diagnostic for Invariance and Order Sensitivity

TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

R-Horizon: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?

AutoPR: Let's Automate Your Academic Promotion!

Multimodal Prompt Optimization: Why Not Leverage Multiple Modalities for MLLMs

TAG:Tangential Amplifying Guidance for Hallucination-Resistant Diffusion Sampling

Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation

D2E: Scaling Vision-Action Pretraining on Desktop Data for Transfer to Embodied AI

Code2Video: A Code-centric Paradigm for Educational Video Generation

Dr. Bias: Social Disparities in AI-Powered Medical Guidance

The Potential of Second-Order Optimization for LLMs: A Study with Full Gauss-Newton

Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning

From What to Why: A Multi-Agent System for Evidence-based Chemical Reaction Condition Reasoning

DreamOmni2: Multimodal Instruction-based Editing and Generation

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches via In-Context Conditioning

UniVideo: Unified Understanding, Generation, and Editing for Videos

MemMamba: Rethinking Memory Patterns in State Space Model

MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization

PromptCoT 2.0: Scaling Prompt Synthesis for Large Language Model Reasoning

Extract-0: A Specialized Language Model for Document Information Extraction

OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

WildSpeech-Bench: Benchmarking End-to-End SpeechLLMs in the Wild

Token-Aware Editing of Internal Activations for Large Language Model Alignment

Looking to Learn: Token-wise Dynamic Gating for Low-Resource Vision-Language Modelling

Agent Learning via Early Experience

MATRIX: Mask Track Alignment for Interaction-aware Video Generation