HyperAI

メイン

GPU

コンソール
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてデータセットのヘルプ

製品

ニュースノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてデータセットのヘルプ

製品

ニュースノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

探索的メモリ拡張型LLMエージェント：ハイブリッドオンポリシーおよびオフポリシー最適化による実現

探索的メモリ拡張型LLMエージェント：ハイブリッドオンポリシーおよびオフポリシー最適化による実現

エージェント

Zeyuan Liu, Jeonghye Kim, Xufang Luo, et al.

想像力は視覚的推論を支援するが、まだ潜在空間では実現していない

想像力は視覚的推論を支援するが、まだ潜在空間では実現していない

マルチモーダル

視覚質問応答

You Li, Chi Chen, Yanghao Li, et al.

オムニGAIA：ネイティブなオムニモーダルAIエージェントへ向けて

オムニGAIA：ネイティブなオムニモーダルAIエージェントへ向けて

マルチモーダル

エージェント

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

MobilityBench：現実世界のモビリティシナリオにおけるルート計画エージェント評価のためのベンチマーク

MobilityBench：現実世界のモビリティシナリオにおけるルート計画エージェント評価のためのベンチマーク

インテリジェントな質問応答

ベンチマーク

Zhiheng Song, Jingshuai Zhang, Chuan Qin, et al.

盲点から利益へ：大規模なマルチモーダルモデルにおける診断駆動型反復学習

盲点から利益へ：大規模なマルチモーダルモデルにおける診断駆動型反復学習

マルチモーダル

モデル学習

Hongrui Jia, Chaoya Jiang, Shikun Zhang, et al.

一貫性の三位一体が汎用世界モデルの定義的原則としての役割

一貫性の三位一体が汎用世界モデルの定義的原則としての役割

マルチモーダル表現

Jingxuan Wei, Siyuan Li, Yuhang Xu, et al.

GUI-Libra：アクション認識型の監督と部分検証可能なRLを用いたネイティブGUIエージェントの推論・実行訓練

GUI-Libra：アクション認識型の監督と部分検証可能なRLを用いたネイティブGUIエージェントの推論・実行訓練

監視付き微調整

エージェント

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4：マルチモーダルな動画・音声生成、インペインティングおよび編集モデル

SkyReels-V4：マルチモーダルな動画・音声生成、インペインティングおよび編集モデル

テキストから動画

拡散モデル

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena：安定したエージェント強化学習を実現する包括的フレームワーク

ARLArena：安定したエージェント強化学習を実現する包括的フレームワーク

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni：制御可能かつ人間中心型音声・映像生成のための統合枠組み

DreamID-Omni：制御可能かつ人間中心型音声・映像生成のための統合枠組み

マルチモーダル

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT：階層的離散拡散モデルによる分子グラフ生成の進展

MolHIT：階層的離散拡散モデルによる分子グラフ生成の進展

拡散モデル

サイエンスのためのAI

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec：長期間行動順序推薦のためのハイブリッド時系列認識アテンションアーキテクチャ

HyTRec：長期間行動順序推薦のためのハイブリッド時系列認識アテンションアーキテクチャ

Preference Modeling

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM：エージェンティックメトリクスを用いたディープリサーチ評価

DREAM：エージェンティックメトリクスを用いたディープリサーチ評価

ベンチマーク

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench：コマンドラインインターフェースにおける長期視野型エージェントプログラミングのための初期ベンチマークと研究

LongCLI-Bench：コマンドラインインターフェースにおける長期視野型エージェントプログラミングのための初期ベンチマークと研究

エージェント

ベンチマーク

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL：RLを活用したオープン型エージェント視覚モデルの構築

PyVision-RL：RLを活用したオープン型エージェント視覚モデルの構築

ビデオ理解

エージェント

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

知覚から行動へ：視覚推論のためのインタラクティブベンチマーク

知覚から行動へ：視覚推論のためのインタラクティブベンチマーク

マルチモーダル

マルチモーダル表現

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

クエリ中心型かつメモリ認識型リランカーによる長文脈処理

クエリ中心型かつメモリ認識型リランカーによる長文脈処理

検索拡張生成

Yuqing Li, Jiangnan Li, Mo Yu, et al.

LLM端末機能のスケーリングのためのデータ工学

LLM端末機能のスケーリングのためのデータ工学

モデル学習

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR：LLM推論における探索のためのデュアルスケール多様性正則化

DSDR：LLM推論における探索のためのデュアルスケール多様性正則化

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O：モバイルデバイス上の統合的マルチモーダル理解と生成

Mobile-O：モバイルデバイス上の統合的マルチモーダル理解と生成

マルチモーダル

拡散モデル

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward：ロボティクスにおける隠れたゼロショット報酬としてのトークン確率

TOPReward：ロボティクスにおける隠れたゼロショット報酬としてのトークン確率

マルチモーダル表現

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR：順次推薦における多様体制約付き潜在的推論と適応的テスト時計算

ManCAR：順次推薦における多様体制約付き潜在的推論と適応的テスト時計算

Preference Modeling

マルチタスク学習

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt：強力なVLAモデル構築のためのレシピ

VLANeXt：強力なVLAモデル構築のためのレシピ

マルチモーダル

マルチモーダル表現

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

非常に大きなビデオ推論スイート

非常に大きなビデオ推論スイート

ビデオ理解

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

視覚情報ゲインを用いた大規模視覚言語モデルの選択的訓練

視覚情報ゲインを用いた大規模視覚言語モデルの選択的訓練

マルチモーダル

監視付き微調整

Seulbi Lee, Sangheum Hwang

DeepVision-103K：視覚的に多様で広範なカバーを備え、検証可能な多モーダル推論向けの数学データセット

DeepVision-103K：視覚的に多様で広範なカバーを備え、検証可能な多モーダル推論向けの数学データセット

マルチモーダル

視覚質問応答

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH：空間認識型リアルタイムエージェント人間

SARAH：空間認識型リアルタイムエージェント人間

マルチモーダル表現

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush：モバイルロボット向けエゴセントリック多対象再配置のエンドツーエンド学習

EgoPush：モバイルロボット向けエゴセントリック多対象再配置のエンドツーエンド学習

オブジェクト追跡

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

生成された現実：手とカメラ操作を用いたインタラクティブな動画生成による人間中心の世界シミュレーション

生成された現実：手とカメラ操作を用いたインタラクティブな動画生成による人間中心の世界シミュレーション

拡散モデル

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO：安定したオフポリシー LLM 学習のための変分シーケンスレベルソフトポリシー最適化

VESPO：安定したオフポリシー LLM 学習のための変分シーケンスレベルソフトポリシー最適化

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

アーシー・トライニティラージテクニカルレポート

アーシー・トライニティラージテクニカルレポート

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

実践におけるフロンティアAIリスク管理フレームワーク：リスク分析技術報告書 v1.5

実践におけるフロンティアAIリスク管理フレームワーク：リスク分析技術報告書 v1.5

エージェント

Dongrui Liu, Yi Yu, Jie Zhang, et al.

探索的メモリ拡張型LLMエージェント：ハイブリッドオンポリシーおよびオフポリシー最適化による実現

探索的メモリ拡張型LLMエージェント：ハイブリッドオンポリシーおよびオフポリシー最適化による実現

エージェント

Zeyuan Liu, Jeonghye Kim, Xufang Luo, et al.

想像力は視覚的推論を支援するが、まだ潜在空間では実現していない

想像力は視覚的推論を支援するが、まだ潜在空間では実現していない

マルチモーダル

視覚質問応答

You Li, Chi Chen, Yanghao Li, et al.

オムニGAIA：ネイティブなオムニモーダルAIエージェントへ向けて

オムニGAIA：ネイティブなオムニモーダルAIエージェントへ向けて

マルチモーダル

エージェント

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

MobilityBench：現実世界のモビリティシナリオにおけるルート計画エージェント評価のためのベンチマーク

MobilityBench：現実世界のモビリティシナリオにおけるルート計画エージェント評価のためのベンチマーク

インテリジェントな質問応答

ベンチマーク

Zhiheng Song, Jingshuai Zhang, Chuan Qin, et al.

盲点から利益へ：大規模なマルチモーダルモデルにおける診断駆動型反復学習

盲点から利益へ：大規模なマルチモーダルモデルにおける診断駆動型反復学習

マルチモーダル

モデル学習

Hongrui Jia, Chaoya Jiang, Shikun Zhang, et al.

一貫性の三位一体が汎用世界モデルの定義的原則としての役割

一貫性の三位一体が汎用世界モデルの定義的原則としての役割

マルチモーダル表現

Jingxuan Wei, Siyuan Li, Yuhang Xu, et al.

GUI-Libra：アクション認識型の監督と部分検証可能なRLを用いたネイティブGUIエージェントの推論・実行訓練

GUI-Libra：アクション認識型の監督と部分検証可能なRLを用いたネイティブGUIエージェントの推論・実行訓練

監視付き微調整

エージェント

Rui Yang, Qianhui Wu, Zhaoyang Wang, et al.

SkyReels-V4：マルチモーダルな動画・音声生成、インペインティングおよび編集モデル

SkyReels-V4：マルチモーダルな動画・音声生成、インペインティングおよび編集モデル

テキストから動画

拡散モデル

Guibin Chen, Dixuan Lin, Jiangping Yang, et al.

ARLArena：安定したエージェント強化学習を実現する包括的フレームワーク

ARLArena：安定したエージェント強化学習を実現する包括的フレームワーク

Xiaoxuan Wang, Han Zhang, Haixin Wang, et al.

DreamID-Omni：制御可能かつ人間中心型音声・映像生成のための統合枠組み

DreamID-Omni：制御可能かつ人間中心型音声・映像生成のための統合枠組み

マルチモーダル

Xu Guo, Fulong Ye, Qichao Sun, et al.

MolHIT：階層的離散拡散モデルによる分子グラフ生成の進展

MolHIT：階層的離散拡散モデルによる分子グラフ生成の進展

拡散モデル

サイエンスのためのAI

Hojung Jung, Rodrigo Hormazabal, Jaehyeong Jo, et al.

HyTRec：長期間行動順序推薦のためのハイブリッド時系列認識アテンションアーキテクチャ

HyTRec：長期間行動順序推薦のためのハイブリッド時系列認識アテンションアーキテクチャ

Preference Modeling

Lei Xin, Yuhao Zheng, Ke Cheng, et al.

DREAM：エージェンティックメトリクスを用いたディープリサーチ評価

DREAM：エージェンティックメトリクスを用いたディープリサーチ評価

ベンチマーク

Elad Ben Avraham, Changhao Li, Ron Dorfman, et al.

LongCLI-Bench：コマンドラインインターフェースにおける長期視野型エージェントプログラミングのための初期ベンチマークと研究

LongCLI-Bench：コマンドラインインターフェースにおける長期視野型エージェントプログラミングのための初期ベンチマークと研究

エージェント

ベンチマーク

Yukang Feng, Jianwen Sun, Zelai Yang, et al.

PyVision-RL：RLを活用したオープン型エージェント視覚モデルの構築

PyVision-RL：RLを活用したオープン型エージェント視覚モデルの構築

ビデオ理解

エージェント

Shitian Zhao, Shaoheng Lin, Ming Li, et al.

知覚から行動へ：視覚推論のためのインタラクティブベンチマーク

知覚から行動へ：視覚推論のためのインタラクティブベンチマーク

マルチモーダル

マルチモーダル表現

Yuhao Wu, Maojia Song, Yihuai Lan, et al.

クエリ中心型かつメモリ認識型リランカーによる長文脈処理

クエリ中心型かつメモリ認識型リランカーによる長文脈処理

検索拡張生成

Yuqing Li, Jiangnan Li, Mo Yu, et al.

LLM端末機能のスケーリングのためのデータ工学

LLM端末機能のスケーリングのためのデータ工学

モデル学習

Renjie Pi, Grace Lam, Mohammad Shoeybi, et al.

DSDR：LLM推論における探索のためのデュアルスケール多様性正則化

DSDR：LLM推論における探索のためのデュアルスケール多様性正則化

Zhongwei Wan, Yun Shen, Zhihao Dou, et al.

Mobile-O：モバイルデバイス上の統合的マルチモーダル理解と生成

Mobile-O：モバイルデバイス上の統合的マルチモーダル理解と生成

マルチモーダル

拡散モデル

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad, et al.

TOPReward：ロボティクスにおける隠れたゼロショット報酬としてのトークン確率

TOPReward：ロボティクスにおける隠れたゼロショット報酬としてのトークン確率

マルチモーダル表現

Shirui Chen, Cole Harrison, Ying-Chun Lee, et al.

ManCAR：順次推薦における多様体制約付き潜在的推論と適応的テスト時計算

ManCAR：順次推薦における多様体制約付き潜在的推論と適応的テスト時計算

Preference Modeling

マルチタスク学習

Kun Yang, Yuxuan Zhu, Yazhe Chen, et al.

VLANeXt：強力なVLAモデル構築のためのレシピ

VLANeXt：強力なVLAモデル構築のためのレシピ

マルチモーダル

マルチモーダル表現

Xiao-Ming Wu, Bin Fan, Kang Liao, et al.

非常に大きなビデオ推論スイート

非常に大きなビデオ推論スイート

ビデオ理解

Maijunxian Wang, Ruisi Wang, Juyi Lin, et al.

視覚情報ゲインを用いた大規模視覚言語モデルの選択的訓練

視覚情報ゲインを用いた大規模視覚言語モデルの選択的訓練

マルチモーダル

監視付き微調整

Seulbi Lee, Sangheum Hwang

DeepVision-103K：視覚的に多様で広範なカバーを備え、検証可能な多モーダル推論向けの数学データセット

DeepVision-103K：視覚的に多様で広範なカバーを備え、検証可能な多モーダル推論向けの数学データセット

マルチモーダル

視覚質問応答

Haoxiang Sun, Lizhen Xu, Bing Zhao, et al.

SARAH：空間認識型リアルタイムエージェント人間

SARAH：空間認識型リアルタイムエージェント人間

マルチモーダル表現

Evonne Ng, Siwei Zhang, Zhang Chen, et al.

EgoPush：モバイルロボット向けエゴセントリック多対象再配置のエンドツーエンド学習

EgoPush：モバイルロボット向けエゴセントリック多対象再配置のエンドツーエンド学習

オブジェクト追跡

Boyuan An, Zhexiong Wang, Yipeng Wang, et al.

生成された現実：手とカメラ操作を用いたインタラクティブな動画生成による人間中心の世界シミュレーション

生成された現実：手とカメラ操作を用いたインタラクティブな動画生成による人間中心の世界シミュレーション

拡散モデル

Linxi Xie, Lisong C. Sun, Ashley Neall, et al.

VESPO：安定したオフポリシー LLM 学習のための変分シーケンスレベルソフトポリシー最適化

VESPO：安定したオフポリシー LLM 学習のための変分シーケンスレベルソフトポリシー最適化

Guobin Shen, Chenxiao Zhao, Xiang Cheng, et al.

アーシー・トライニティラージテクニカルレポート

アーシー・トライニティラージテクニカルレポート

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

実践におけるフロンティアAIリスク管理フレームワーク：リスク分析技術報告書 v1.5

実践におけるフロンティアAIリスク管理フレームワーク：リスク分析技術報告書 v1.5

エージェント

Dongrui Liu, Yi Yu, Jie Zhang, et al.