Papers

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni: Reflex over Reasoning in Agentic Video Understanding with Long-Term Memory

Video Understanding

Chang Nie, Jiaju Wei, Junlan Feng, et al.

Vision as Unified Multimodal Generation

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Any-to-Any

Hierarchical Sparse Attention Done Right: Toward Infinite Context Modeling

Xiang Hu, Xinyu Wei, Hao Gu, et al.

Transformer

AlayaWorld: Long-Horizon and Playable Video World Generation

RynnWorld-4D: 4D Embodied World Models for Robotic Manipulation

Diffusion Model

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B: Compressing Hybrid MoE LLMs

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

Multi-Turn On-Policy Distillation with Prefix Replay

Reinforcement Learning

Baohao Liao, Hanze Dong, Christof Monz, et al.

Gemma 4 Technical Report

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD: Multi-Platform On-Policy Distillation for Continual GUI Agent Learning

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2: Higher Resolution, Same Latency

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

Text-to-Audio

EVA-Client: A Unified Framework for Deployment, Evaluation, and Data Collection on Real Robots

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1: A Roadmap to Build World Models for Robot Policy Evaluation

Benchmarks

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea: An Evidence-Grounded Research-Ideation Skill Suite from ML Conference Outcomes

Retrieval-Augmented Generation

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

ResearchStudio-Reel: Automate the Last Mile of Research from Paper to Poster, Video, and Blog

Document Understanding

Text Generation

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench: Measuring Functional Metacognitive Reasoning in Large Language Models

Benchmarks

Reasoning

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D: Fine-Grained Functionality and Affordance Understanding in 3D Scenes

3D Machine Vision

Semantic Segmentation

TheoremGraph: Bridging Formal and Informal Mathematics

Retrieval-Augmented Generation

Simon Kurgan, Evan Wang, Eric Leonen, et al.

Always-On Agents: A Survey of Persistent Memory, State, and Governance in LLM Agents

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

Securing the AI Agent: A Unified Framework for Multi-Layer Agent Red Teaming

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM: Improved Open Datasets for Vision-Language Models

Dataset

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant: Data-Agnostic Quantization for Image and Video Diffusion Transformers

Diffusion Model

Image Generation

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector: Lightweight Detect-and-Correct Inference for Adaptive Action Horizon

Yi Pan, Miao Pan, Qi Lu, et al.

Reinforcement Learning

Embodied.cpp: A Portable Inference Runtime of Embodied AI Models on Heterogeneous Robots

Embodied Intelligence

Ling Xu, Chuyu Han, Borui Li, et al.

The Mirage of Optimizing Training Policies: Monotonic Inference Policies as the Real Objective for LLM Reinforcement Learning

Jing Liang, Hongyao Tang, Yi Ma, et al.

Supervised Fine-Tuning

GeneBench-Pro: Evaluating Multistage Statistical Reasoning in Genomics, Quantitative Biology, and Translational Biomedicine

Benchmarks

AI for Science

Jeremy Li, Andrew Ho

Position: AI/ML Deepfake Research is Misaligned with AI-Generated Non-Consensual Intimate Imagery (AIG-NCII)

Image Generation

Deep Learning

Li Qiwei, Wells Lucas Santo, Sarita Schoenebeck, et al.

To Grok Grokking: Provable Grokking in Ridge Regression

Deep Learning

Mingyue Xu, Gal Vardi, Itay Safran

A Random Matrix Theory Perspective on the Consistency of Diffusion Models

Diffusion Model

Deep Learning

Binxu Wang, Jacob Zavatone-Veth, Cengiz Pehlevan

How much do language models memorize?

Transformer

John X. Morris, Chawin Sitawarin, Chuan Guo, et al.

The Obfuscation Atlas: Mapping Where Honesty Emerges in RLVR with Deception Probes

Reinforcement Learning

Mohammad Taufeeque, Stefan Heimersheim, Adam Gleave, et al.

Position: The Alignment Community is Unintentionally Building a Censor’s Toolkit