Papers

Ziyu Chen, Yilun Zhao, Arman Cohan

サイエンスのためのAI

ハーネス効果：オーケストレーション設計がエンタープライズエージェントAIのトークン経済を決定する仕組み

Muayad Sayed Ali, Aliaksandra Novik, Anji Boddupally, et al.

多様なインタラクションを備えた無限の世界

Zelin Gao, Qiuyu Wang, Jiapeng Zhu, et al.

身体性知能のためのMixture-of-Expertsビデオ事前学習のスケーリング

Shuailei Ma, Jiaqi Liao, Xinyang Wang, et al.

LAME M-VLA: ロボット操作のための視覚-言語-行動モデルにおける二重潜在記憶

Hongyu Qu, Jianzhe Gao, Xiaobin Hu, et al.

マルチモーダル表現

深層ネイティブ構造推論による高精度・学際的・透明性の高い構造-物性理解

サイエンスのためのAI

Reasoning

Chen Tang, Yizhou Wang, Jianyu Wu, et al.

全モーダル密なビデオキャプションのための並列自己回帰デコーディング

Video Captioning

Wenzheng Zeng, Siyi Jiao, Chen Gao, et al.

Light-Omni: 長期記憶を用いたエージェント型映像理解における推論より反射

ビデオ理解

Chang Nie, Jiaju Wei, Junlan Feng, et al.

統一マルチモーダル生成としての視覚

Xiaoyang Han, Jianhua Li, Kewang Deng, et al.

Any-to-Any

階層的スパースアテンションの正しい実現：無限コンテキストモデリングに向けて

Xiang Hu, Xinyu Wei, Hao Gu, et al.

Transformer

AlayaWorld: 長期的かつプレイ可能なビデオワールド生成

RynnWorld-4D: ロボット操作のための4D具現化世界モデル

拡散モデル

Haoyu Zhao, Xingyue Zhao, Siteng Huang, et al.

Nemotron-Labs-3-Puzzle-75B-A9B: ハイブリッドMoE LLMの圧縮

Akhiad Bercovich, Talor Abramovich, Daniel Afrimi, et al.

モデル学習

プレフィックスリプレイを用いたマルチターンオンポリシー蒸留

強化学習

Baohao Liao, Hanze Dong, Christof Monz, et al.

Gemma 4 技術報告書

Sherif El Abd, Vaibhav Aggarwal, Robin Algayres, et al.

UI-MOPD: GUIエージェントの継続学習のためのマルチプラットフォーム・オンポリシー蒸留

Niu Lian, Alan Chen, Zhehao Yu, et al.

Wan-Streamer v0.2: 高解像度化と同一レイテンシの両立

Lianghua Huang, Zhi-Fan Wu, Yupeng Shi, et al.

Text-to-Audio

EVA-Client: 実ロボットにおける展開、評価、データ収集のための統一フレームワーク

Heqing Yang, Yang Yi, Liyao Wang, et al.

GigaWorld-1: ロボットポリシー評価のためのワールドモデル構築へのロードマップ

ベンチマーク

Angyuan Ma, Boyuan Wang, Bohan Li, et al.

ResearchStudio-Idea: 機械学習会議の採択結果に基づくエビデンス重視の研究発想スキル群

Qihao Zhao, Yangyu Huang, Yalun Dai, et al.

検索拡張生成

ResearchStudio-Reel: 論文からポスター、動画、ブログへの研究発信のラストワンマイルを自動化する

ドキュメント理解

テキスト生成

Lingao Xiao, Yalun Dai, Yangyu Huang, et al.

FINAL Bench: 大規模言語モデルにおける機能的メタ認知推論の測定

ベンチマーク

Reasoning

Taebong Kim, Minsik Kim, Sunyoung Choi, et al.

SceneFun3D: 3Dシーンにおける詳細な機能性とアフォーダンス理解

3D マシンビジョン

セマンティックセグメンテーション

TheoremGraph: 形式数学と非形式数学の橋渡し

検索拡張生成

Simon Kurgan, Evan Wang, Eric Leonen, et al.

常時稼働エージェント：LLMエージェントにおける永続的記憶、状態、ガバナンスに関するサーベイ

Tianyu Ding, Aditya Nannapaneni, Bingfan Liu, et al.

AIエージェントのセキュリティ確保：多層エージェントレッドチーミングのための統一フレームワーク

Yong Yang, Xing Zheng, Huiyu Wu, et al.

DataComp-VLM: 視覚言語モデルのための改善されたオープンデータセット

データセット

Matteo Farina, Vishaal Udandarao, Thao Nguyen, et al.

OrbitQuant: 画像・動画拡散変換器のためのデータ非依存型量子化

拡散モデル

画像生成

Donghyun Lee, Jitesh Chavan, Duy Nguyen, et al.

VLA-Corrector: 適応的行動ホライズンのための軽量な検出・修正推論

Yi Pan, Miao Pan, Qi Lu, et al.

強化学習

Embodied.cpp: 異種ロボットにおけるEmbodied AIモデルの可搬型推論ランタイム

エムボディドインテリジェンス