HyperAI

Daily updated cutting-edge AI research papers to help you keep up with the latest AI trends

Infinite Worlds with Versatile Interactions

Agent

Video Generation

Zelin Gao, Qiuyu Wang, Jiapeng Zhu, et al.

Scaling Mixture-of-Experts Video Pretraining for Embodied Intelligence

Video Generation

Shuailei Ma, Jiaqi Liao, Xinyang Wang, et al.

LAME M-VLA: DUAL LATENT MEMORY IN VISION-LANGUAGE-ACTION MODELS FOR ROBOTIC MANIPULATION

Multimodal

Multimodal Representation

Hongyu Qu, Jianzhe Gao, Xiaobin Hu, et al.

Accurate, Interdisciplinary and Transparent Structure-property Understanding with Deep Native Structural Reasoning

AI for Science

Reasoning

Chen Tang, Yizhou Wang, Jianyu Wu, et al.

Parallelized Autoregressive Decoding for Omni-Modal Dense Video Captioning

Video Captioning

Multimodal

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni: Reflex over Reasoning in Agentic Video Understanding with Long-Term Memory

Video Understanding

Agent

Chang Nie, Jiaju Wei, Junlan Feng, et al.

Vision as Unified Multimodal Generation

Multimodal

Any-to-Any

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Hierarchical Sparse Attention Done Right: Toward Infinite Context Modeling

LLM

Transformer

Xiang Hu, Xinyu Wei, Hao Gu, et al.

AlayaWorld: Long-Horizon and Playable Video World Generation

Video Generation

RynnWorld-4D: 4D Embodied World Models for Robotic Manipulation

Diffusion Model

Video Generation

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B: Compressing Hybrid MoE LLMs

LLM

Model Training

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

Multi-Turn On-Policy Distillation with Prefix Replay

Reinforcement Learning

Agent

Baohao Liao, Hanze Dong, Christof Monz, et al.

Gemma 4 Technical Report

LLM

Multimodal

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD: Multi-Platform On-Policy Distillation for Continual GUI Agent Learning

Agent

Multimodal

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2: Higher Resolution, Same Latency

Video Generation

Text-to-Audio

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

EVA-Client: A Unified Framework for Deployment, Evaluation, and Data Collection on Real Robots

Multimodal

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1: A Roadmap to Build World Models for Robot Policy Evaluation

Benchmarks

Video Generation

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea: An Evidence-Grounded Research-Ideation Skill Suite from ML Conference Outcomes

LLM

Retrieval-Augmented Generation

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

ResearchStudio-Reel: Automate the Last Mile of Research from Paper to Poster, Video, and Blog

Document Understanding

Text Generation

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench: Measuring Functional Metacognitive Reasoning in Large Language Models

Benchmarks

Reasoning

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D Scenes

3D Machine Vision

Semantic Segmentation

TheoremGraph: Bridging Formal and Informal Mathematics

Retrieval-Augmented Generation

LLM

Simon Kurgan, Evan Wang, Eric Leonen, et al.

Always-On Agents: A Survey of Persistent Memory, State, and Governance in LLM Agents

Agent

LLM

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

Securing the AI Agent: A Unified Framework for Multi-Layer Agent Red Teaming

Agent

LLM

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM: Improved Open Datasets for Vision-Language Models

Dataset

Multimodal

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant: Data-Agnostic Quantization for Image and Video Diffusion Transformers

Diffusion Model

Image Generation

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector: Lightweight Detect-and-Correct Inference for Adaptive Action Horizon

Multimodal

Reinforcement Learning

Yi Pan, Miao Pan, Qi Lu, et al.

Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots

Embodied Intelligence

Multimodal

Ling Xu, Chuyu Han, Borui Li, et al.

The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning

Model Training

Supervised Fine-Tuning

Jing Liang, Hongyao Tang, Yi Ma, et al.

GeneBench-Pro: Evaluating Multistage Statistical Reasoning in Genomics, Quantitative Biology, and Translational Biomedicine

Benchmarks

AI for Science

Jeremy Li, Andrew Ho

Position: AI/ML Deepfake Research is Misaligned with AI-Generated Non-Consensual Intimate Imagery (AIG-NCII)

Image Generation

Deep Learning

Li Qiwei, Wells Lucas Santo, Sarita Schoenebeck, et al.

To Grok Grokking: Provable Grokking in Ridge Regression

Deep Learning

Model Training

Mingyue Xu, Gal Vardi, Itay Safran

Command Palette

Papers

Command Palette

Papers

Command Palette

Papers