HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

Main

GPU

Console
Studio
Docs
Pricing

Pulse

News

Resources

Papers
Notebooks
Datasets
Wiki

Benchmarks

SOTA
LLM Models
GPU Leaderboard

Community

Events

Utility

About Terms of Service Privacy Policy
English

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Build the Future of Artificial Intelligence

About

About Us Support Dataset Help

Products

News Papers Notebooks Datasets Wiki

Links

© HyperAI

GitHub Discord X (formerly Twitter)

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM Safety From Within: Detecting Harmful Content with Internal Representations

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Diffusion Model

Medical Imaging

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Decoupled DiLoCo for Resilient Distributed Pre-training

Decoupled DiLoCo Team

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

Seeing Fast and Slow: Learning the Flow of Time in Videos

Video Generation

Video Understanding

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Face Recognition

Image Recognition

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Multimodal Representation

Video Generation

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Video Generation

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Image Generators are Generalist Vision Learners

Image Generation

Image Understanding

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Multimodal Representation

Meituan LongCat Team

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Reinforcement Learning

Qwen Pilot Team

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Reinforcement Learning

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

Image Generation

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Video Generation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Supervised Fine-Tuning

Venus Team, Sunhao Dai, Yong Deng, et al.

Near-Future Policy Optimization

Reinforcement Learning

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Diffusion Model

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Supervised Fine-Tuning

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

Artificial Intelligence

PlayCoder: Making LLM-Generated GUI Code Playable

Code Generation

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: Scaling Test-time Training for Large Reasoning Models

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Diffusion Model

3D Machine Vision

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: An Agent SPecification and EXecution Language

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

FlowAnchor: Stabilizing the Editing Signal for Inversion-Free Video Editing

Ze Chen, Lan Chen, Yuanhang Li, et al.

LLM Safety From Within: Detecting Harmful Content with Internal Representations

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Diffusion Model

Medical Imaging

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

Decoupled DiLoCo for Resilient Distributed Pre-training

Decoupled DiLoCo Team

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

Seeing Fast and Slow: Learning the Flow of Time in Videos

Video Generation

Video Understanding

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Face Recognition

Image Recognition

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Multimodal Representation

Video Generation

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Video Generation

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

Image Generators are Generalist Vision Learners

Image Generation

Image Understanding

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

Multimodal Representation

Meituan LongCat Team

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Reinforcement Learning

Qwen Pilot Team

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Reinforcement Learning

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

Image Generation

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Video Generation

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Supervised Fine-Tuning

Venus Team, Sunhao Dai, Yong Deng, et al.

Near-Future Policy Optimization

Reinforcement Learning

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Diffusion Model

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Supervised Fine-Tuning

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

Artificial Intelligence

PlayCoder: Making LLM-Generated GUI Code Playable

Code Generation

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: Scaling Test-time Training for Large Reasoning Models

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Diffusion Model

3D Machine Vision

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: An Agent SPecification and EXecution Language

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Decoupled DiLoCo for Resilient Distributed Pre-training

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Seeing Fast and Slow: Learning the Flow of Time in Videos

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Image Generators are Generalist Vision Learners

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Near-Future Policy Optimization

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

PlayCoder: Making LLM-Generated GUI Code Playable

TEMPO: Scaling Test-time Training for Large Reasoning Models

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

AgentSPEX: An Agent SPecification and EXecution Language

DiffNR: Diffusion-Enhanced Neural Representation Optimization for Sparse-View 3D Tomographic Reconstruction

Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond

Decoupled DiLoCo for Resilient Distributed Pre-training

EVENT TENSOR: A UNIFIED ABSTRACTION FOR COMPILING DYNAMIC MEGAKERNEL

Seeing Fast and Slow: Learning the Flow of Time in Videos

Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

WorldMark: A Unified Benchmark Suite for Interactive Video World Models

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Image Generators are Generalist Vision Learners

LongCat-Next: Lexicalizing Modalities as Discrete Tokens

FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

Exploring Spatial Intelligence from a Generative Perspective

DeVI: Physics-based Dexterous Human-Object Interaction via Synthetic Video Imitation

Reward Hacking in the Era of Large Models: Mechanisms, Emergent Misalignment, Challenges

DR-Venus: Towards Frontier Edge-Scale Deep Research Agents with Only 10K Open Data

Near-Future Policy Optimization

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

BioInstruct: Instruction Tuning of Large Language Models for Biomedical Natural Language Processing

Logics-Parsing-Omni Technical Report

Task Tokens: A Flexible Approach to Adapting Behavior Foundation Models

面向盲人与低视力用户的可解释人工智能：Agent 时代的信任、模态与可解释性探索

PlayCoder: Making LLM-Generated GUI Code Playable

TEMPO: Scaling Test-time Training for Large Reasoning Models

AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

AgentSPEX: An Agent SPecification and EXecution Language