Papers

Multimodal Representation

Flow Matching in Feature Space for Stochastic World Modeling

Diffusion Model

François Porcher, Nicolas Carion, Karteek Alahari, et al.

Full-Pipeline Inference Optimization for MiMo-V2.5 Series: Pushing Hybrid SWA Efficiency to the Limit

Anqi Liu, Rui Huang, Aoxin Ma, et al.

TRACE: TURN-LEVEL REWARD ASSIGNMENT VIA CREDIT ESTIMATION FOR LONG-HORIZON AGENTS

Leitian Tao, Baolin Peng, Wenlin Yao, et al.

KeyFrame-Compass: Towards Comprehensive Evaluation of Keyframe-Conditioned Video Generation

Video Generation

Image-to-Video

Yuqi Tang, Tengfei Liu, Yizheng Lai, et al.

BadWAM: When World-Action Models Dream Right but Act Wrong

Multimodal Representation

Qi Li, Xingyi Yang, Xinchao Wang

SearchOS-V1 : Towards Robust Open-Domain Information-Seeking Agent Collaboration

Yuyao Zhang, Junjie Gao, Zhengxian Wu, et al.

SEED: SELF-EVOLVING ON-POLICY DISTILLATION FOR AGENTIC REINFORCEMENT LEARNING

Jinyang Wu, Shuo Yang, Zhengxi Lu, et al.

VideoChat3: Fully Open Video MLLM for Efficient and Generalist Video Understanding

Video Understanding

Xinhao Li, Yuhan Zhu, Xiangyu Zeng, et al.

LongStraw: Long-Context RL Beyond 2M Tokens under a Fixed GPU Budget

Changhai Zhou, Kieran Liu, Yuhua Zhou, et al.

Deep Learning in Remote Sensing: A Review

Xiao Xiang Zhu, Devis Tuia, Lichao Mou, et al.

Remote Sensing

A Regression Approach to Speech Enhancement Based on Deep Neural Networks

Audio and Speech Processing

Yong Xu, Jun Du, Li-Rong Dai, et al.

Deep Neural Networks for Acoustic Modeling in Speech Recognition

Neural Networks

Audio and Speech Processing

Geoffrey Hinton, Li Deng, Dong Yu, et al.

RoboTTT: Context Scaling for Robot Policies

Model Training

Yunfan Jiang, Yevgen Chebotar, Ruijie Zheng, et al.

SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering

John Yang, Carlos E. Jimenez, Alexander Wettig, et al.

Code Generation

Efficient Estimation of Word Representations in Vector Space

Natural Language Processing

Tomas Mikolov, Greg Corrado, Kai Chen, et al.

Depth Map Prediction from a Single Image using a Multi-Scale Deep Network

Depth Estimation

Computer Vision

David Eigen, Christian Puhrsch, Rob Fergus

TabNet: Attentive Interpretable Tabular Learning

Sercan O. Arık, Tomas Pfister

AudioPaLM: A Large Language Model That Can Speak and Listen

Paul K. Rubenstein, Chulayuth Asawaroengchai, Duc Dung Nguyen, et al.

Any-to-Any

SQuAD: 100,000+ Questions for Machine Comprehension of Text

Intelligent Question Answering

Natural Language Processing

Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, et al.

DeepPose: Human Pose Estimation via Deep Neural Networks

Alexander Toshev, Christian Szegedy

Computer Vision

Self-Improvements in Modern Agentic Systems: A Survey

Zhe Ren, Yimeng Chen, Dandan Guo, et al.

Single-Rollout Asynchronous Optimization for Agentic Reinforcement Learning

Zhenyu Hou, Yujiang Li, Jie Tang, et al.

SparDA: Sparse Decoupled Attention for Efficient Long-Context LLM Inference

Transformer

Yaosheng Fu, Guangxuan Xiao, Xin Dong, et al.

MetaView: Monocular Novel View Synthesis with Scale-Aware Implicit Geometry Priors

3D Generation

Diffusion Model

Yufei Cai, Xuesong Niu, Hao Lu, et al.

PolicyShiftGuard: Benchmarking and Improving Policy-Adaptive Image Guardrails

Mingyang Song, Luxin Xu, Haoyu Sun, et al.

Supervised Fine-Tuning

KnowAct-GUIClaw: Know Deeply, Act Perfectly, Personal GUI Assistant with Self-Evolving Memory and Skill

Yunxin Li, Jinchao Li, Baotian Hu, et al.

OvisOCR2 Technical Report

OCR

Document Understanding

Shiyin Lu, Yinglun Li, Yu Xia, et al.

Boogu-Image-0.1: Boosting Open-Source Unified Multimodal Understanding and Generation

Text-to-Image

Image Generation

Rui Liu, Chao Huang, Han Shi, et al.

Harness Handbook: Making Evolving Agent Harnesses Readable, Navigable, and Editable

Ruhan Wang, Yucheng Shi, Zongxia Li, et al.

Code Generation

Qwen-Music Technical Report

Text-to-Audio

Jin Xu, Shun Lei, Xueyao Zhang, et al.

Spectral Rewiring for Exploration, Purification, and Model Merging