HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

現実の大都市における世界シミュレーションモデルのグラウンディング

現実の大都市における世界シミュレーションモデルのグラウンディング

画像から動画生成

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker：トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現

OpenSeeker：トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現

エージェント

Yuwen Du, Rui Ye, Shuo Tang, et al.

AI Can Learn Scientific Taste

Preference Modeling

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク

マルチモーダル

視覚質問応答

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

ビジョン・ランゲージモデルはシェルゲームを解決できるか？

オブジェクト追跡

ビデオ理解

Tiedong Liu, Wee Sun Lee

OmniForcing：リアルタイムな音視覚生成の潜在能力を解放する

マルチモーダル

拡散モデル

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env：大規模スケーラブルなオープン SWE 環境合成

コード生成

エージェント

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers：パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現

マルチモーダル

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB：Long-horizon Memory Embedding Benchmark

ベンチマーク

検索拡張生成

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni：潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ

テキストから動画

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

ShotVerse：テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展

テキストから動画

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

コンピュータ使用エージェントのためのビデオベース報酬モデリング

ビデオ理解

マルチモーダル

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化

Yushi Bai, Qian Dong, Ting Jiang, et al.

戦略的ナビゲーションか、確率的探索か？エージェントと人間がドキュメントコレクションに対してどのように推論するか

インテリジェントな質問応答

エージェント

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.

Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能

ビデオ理解

ビデオ処理

Fangfu Liu, Diankun Wu, Jiawei Chi, et al.

大規模言語モデルは追随できるか？継続的知識ストリームへのオンライン適応のベンチマーク評価

ベンチマーク

Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.

ReMix：LLM 微調整における LoRA 混合物のための強化学習ルーティング

監視付き微調整

モデル学習

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.

大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習

Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.

MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答

視覚質問応答

ビデオ理解

Kangsan Kim, Yanlai Yang, Suji Kim, et al.

Flash-KMeans：高速かつメモリ効率に優れた厳密 K-Means

ディープラーニング

Shuo Yang, Haocheng Xi, Yilong Zhao, et al.

OpenClaw-RL: 対話のみによる任意の Agent の訓練

エージェント

Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.

法廷へ VLM を招く：スポーツにおける空間知能のベンチマーク評価

視覚質問応答

マルチモーダル

Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.

InternVL-U: 理解、推論、生成、編集のための統合マルチモーダルモデルの民主化

マルチモーダル

Changyao Tian, Danni Yang, Guanzhou Chen, et al.

MM-Zero：ゼロデータからの自己進化型マルチモデル視覚言語モデル

マルチモーダル

視覚質問応答

Zongxia Li, Hongyang Du, Chengsong Huang, et al.

思考による想起：LLM における推論がパラメトリック知識を解き放つ仕組み

Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.

Omni-Diffusion: マスクド離散拡散による統合的マルチモーダル理解と生成

拡散モデル

Lijiang Li, Zuwei Long, Yunhang Shen, et al.

幾何学誘導型強化学習による多視点整合性を持つ 3D シーン編集

拡散モデル

Jiyuan Wang, Chunyu Lin, Lei Sun, et al.

CARE-Edit: 文脈的画像編集のための条件感知型エキスパート経路選択

拡散モデル

マルチモーダル

Yucheng Wang, Zedong Wang, Yuetong Wu, et al.

モデルを信頼せよ：分布誘導型信頼度較正

Xizhong Yang, Haotian Zhang, Huiming Wang, et al.

LoGeR：ハイブリッドメモリによる長文脈幾何学的再構成

3D マシンビジョン

ビデオ処理

Junyi Zhang, Charles Herrmann, Junhwa Hur, et al.

教師なし RLVR が LLM 訓練をどこまで拡張可能か

Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al.

Holi-Spatial：動画ストリームを包括的な 3D 空間知能へと進化させる

ビデオ理解

マルチモーダル

Yuanyuan Gao, Hao Li, Yifei Liu, et al.

現実の大都市における世界シミュレーションモデルのグラウンディング

現実の大都市における世界シミュレーションモデルのグラウンディング

画像から動画生成

Junyoung Seo, Hyunwook Choi, Minkyung Kwon, et al.

OpenSeeker：トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現

OpenSeeker：トレーニングデータを完全にオープンソース化することで、最先端の検索エージェントの民主化を実現

エージェント

Yuwen Du, Rui Ye, Shuo Tang, et al.

AI Can Learn Scientific Taste

Preference Modeling

Jingqi Tong, Mingzhe Li, Hangcheng Li, et al.

MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク

マルチモーダル

視覚質問応答

Haozhan Shen, Shilin Yan, Hongwei Xue, et al.

ビジョン・ランゲージモデルはシェルゲームを解決できるか？

オブジェクト追跡

ビデオ理解

Tiedong Liu, Wee Sun Lee

OmniForcing：リアルタイムな音視覚生成の潜在能力を解放する

マルチモーダル

拡散モデル

Yaofeng Su, Yuming Li, Zeyue Xue, et al.

daVinci-Env：大規模スケーラブルなオープン SWE 環境合成

コード生成

エージェント

Dayuan Fu, Shenyu Wu, Yunze Wu, et al.

Cheers：パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現

マルチモーダル

Yichen Zhang, Da Peng, Zonghao Guo, et al.

LMEB：Long-horizon Memory Embedding Benchmark

ベンチマーク

検索拡張生成

Xinping Zhao, Xinshuo Hu, Jiaxin Xu, et al.

DreamVideo-Omni：潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ

テキストから動画

Yujie Wei, Xinyu Liu, Shiwei Zhang, et al.

ShotVerse：テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展

テキストから動画

Songlin Yang, Zhe Wang, Xuyi Yang, et al.

コンピュータ使用エージェントのためのビデオベース報酬モデリング

ビデオ理解

マルチモーダル

Linxin Song, Jieyu Zhang, Huanxin Sheng, et al.

IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化

Yushi Bai, Qian Dong, Ting Jiang, et al.

戦略的ナビゲーションか、確率的探索か？エージェントと人間がドキュメントコレクションに対してどのように推論するか

インテリジェントな質問応答

エージェント

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, et al.

Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能

ビデオ理解

ビデオ処理

Fangfu Liu, Diankun Wu, Jiawei Chi, et al.

大規模言語モデルは追随できるか？継続的知識ストリームへのオンライン適応のベンチマーク評価

ベンチマーク

Jiyeon Kim, Hyunji Lee, Dylan Zhou, et al.

ReMix：LLM 微調整における LoRA 混合物のための強化学習ルーティング

監視付き微調整

モデル学習

Ruizhong Qiu, Hanqing Zeng, Yinglong Xia, et al.

大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習

Yaoqi Ye, Yiran Zhao, Keyu Duan, et al.

MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答

視覚質問応答

ビデオ理解

Kangsan Kim, Yanlai Yang, Suji Kim, et al.

Flash-KMeans：高速かつメモリ効率に優れた厳密 K-Means

ディープラーニング

Shuo Yang, Haocheng Xi, Yilong Zhao, et al.

OpenClaw-RL: 対話のみによる任意の Agent の訓練

エージェント

Yinjie Wang, Xuyang Chen, Xiaolong Jin, et al.

法廷へ VLM を招く：スポーツにおける空間知能のベンチマーク評価

視覚質問応答

マルチモーダル

Yuchen Yang, Yuqing Shao, Duxiu Huang, et al.

InternVL-U: 理解、推論、生成、編集のための統合マルチモーダルモデルの民主化

マルチモーダル

Changyao Tian, Danni Yang, Guanzhou Chen, et al.

MM-Zero：ゼロデータからの自己進化型マルチモデル視覚言語モデル

マルチモーダル

視覚質問応答

Zongxia Li, Hongyang Du, Chengsong Huang, et al.

思考による想起：LLM における推論がパラメトリック知識を解き放つ仕組み

Zorik Gekhman, Roee Aharoni, Eran Ofek, et al.

Omni-Diffusion: マスクド離散拡散による統合的マルチモーダル理解と生成

拡散モデル

Lijiang Li, Zuwei Long, Yunhang Shen, et al.

幾何学誘導型強化学習による多視点整合性を持つ 3D シーン編集

拡散モデル

Jiyuan Wang, Chunyu Lin, Lei Sun, et al.

CARE-Edit: 文脈的画像編集のための条件感知型エキスパート経路選択

拡散モデル

マルチモーダル

Yucheng Wang, Zedong Wang, Yuetong Wu, et al.

モデルを信頼せよ：分布誘導型信頼度較正

Xizhong Yang, Haotian Zhang, Huiming Wang, et al.

LoGeR：ハイブリッドメモリによる長文脈幾何学的再構成

3D マシンビジョン

ビデオ処理

Junyi Zhang, Charles Herrmann, Junhwa Hur, et al.

教師なし RLVR が LLM 訓練をどこまで拡張可能か

Bingxiang He, Yuxin Zuo, Zeyuan Liu, et al.

Holi-Spatial：動画ストリームを包括的な 3D 空間知能へと進化させる

ビデオ理解

マルチモーダル

Yuanyuan Gao, Hao Li, Yifei Liu, et al.

AI Can Learn Scientific Taste

MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク

ビジョン・ランゲージモデルはシェルゲームを解決できるか？

OmniForcing：リアルタイムな音視覚生成の潜在能力を解放する

daVinci-Env：大規模スケーラブルなオープン SWE 環境合成

Cheers：パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現

LMEB：Long-horizon Memory Embedding Benchmark

DreamVideo-Omni：潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ

ShotVerse：テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展

コンピュータ使用エージェントのためのビデオベース報酬モデリング

IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化

戦略的ナビゲーションか、確率的探索か？エージェントと人間がドキュメントコレクションに対してどのように推論するか

Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能

大規模言語モデルは追随できるか？継続的知識ストリームへのオンライン適応のベンチマーク評価

ReMix：LLM 微調整における LoRA 混合物のための強化学習ルーティング

大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習

MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答

Flash-KMeans：高速かつメモリ効率に優れた厳密 K-Means

OpenClaw-RL: 対話のみによる任意の Agent の訓練

法廷へ VLM を招く：スポーツにおける空間知能のベンチマーク評価

InternVL-U: 理解、推論、生成、編集のための統合マルチモーダルモデルの民主化

MM-Zero：ゼロデータからの自己進化型マルチモデル視覚言語モデル

思考による想起：LLM における推論がパラメトリック知識を解き放つ仕組み

Omni-Diffusion: マスクド離散拡散による統合的マルチモーダル理解と生成

幾何学誘導型強化学習による多視点整合性を持つ 3D シーン編集

CARE-Edit: 文脈的画像編集のための条件感知型エキスパート経路選択

モデルを信頼せよ：分布誘導型信頼度較正

LoGeR：ハイブリッドメモリによる長文脈幾何学的再構成

教師なし RLVR が LLM 訓練をどこまで拡張可能か

Holi-Spatial：動画ストリームを包括的な 3D 空間知能へと進化させる

AI Can Learn Scientific Taste

MM-CondChain: 視覚的根拠に基づく深層構成的推論のためのプログラム検証済みベンチマーク

ビジョン・ランゲージモデルはシェルゲームを解決できるか？

OmniForcing：リアルタイムな音視覚生成の潜在能力を解放する

daVinci-Env：大規模スケーラブルなオープン SWE 環境合成

Cheers：パッチの詳細を意味表現から分離することで、統合されたマルチモーダル理解と生成を実現

LMEB：Long-horizon Memory Embedding Benchmark

DreamVideo-Omni：潜在アイデンティティ強化学習によるオムニモーション制御マルチサブジェクト動画カスタマイズ

ShotVerse：テキスト駆動型マルチショット動画生成のための映画撮影カメラ制御の進展

コンピュータ使用エージェントのためのビデオベース報酬モデリング

IndexCache: クロスレイヤーインデックスの再利用によるスパースアテンションの高速化

戦略的ナビゲーションか、確率的探索か？エージェントと人間がドキュメントコレクションに対してどのように推論するか

Spatial-TTT: テスト時トレーニングによるストリーミング視覚ベースの空間知能

大規模言語モデルは追随できるか？継続的知識ストリームへのオンライン適応のベンチマーク評価

ReMix：LLM 微調整における LoRA 混合物のための強化学習ルーティング

大規模言語モデルにおけるツール利用のためのコンテキスト内強化学習

MA-EgoQA: 複数の具現化エージェントによる第一人称視点動画からの質問応答

Flash-KMeans：高速かつメモリ効率に優れた厳密 K-Means

OpenClaw-RL: 対話のみによる任意の Agent の訓練

法廷へ VLM を招く：スポーツにおける空間知能のベンチマーク評価

InternVL-U: 理解、推論、生成、編集のための統合マルチモーダルモデルの民主化

MM-Zero：ゼロデータからの自己進化型マルチモデル視覚言語モデル

思考による想起：LLM における推論がパラメトリック知識を解き放つ仕組み

Omni-Diffusion: マスクド離散拡散による統合的マルチモーダル理解と生成

幾何学誘導型強化学習による多視点整合性を持つ 3D シーン編集

CARE-Edit: 文脈的画像編集のための条件感知型エキスパート経路選択

モデルを信頼せよ：分布誘導型信頼度較正

LoGeR：ハイブリッドメモリによる長文脈幾何学的再構成

教師なし RLVR が LLM 訓練をどこまで拡張可能か

Holi-Spatial：動画ストリームを包括的な 3D 空間知能へと進化させる