HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

人間とAIの補完性：拡張された監視のための目標

人間とAIの補完性：拡張された監視のための目標

人間-コンピュータインタラクション

自然言語処理

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt：効率的なLLMベースのブラックボックス最適化へ向けて

GPTOpt：効率的なLLMベースのブラックボックス最適化へ向けて

監視付き微調整

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster：文脈学習を活用した動的ビジュアルエフェクト生成の解明

画像から動画生成

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

プロセスマイニングを用いた推論対応型GRPO

Taekhyun Park, Yongjae Lee, Hyerim Bae

ループ型言語モデルを用いた潜在的推論のスケーリング

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm：予測的有限列最適化を用いた反映型オートフォーマライゼーション

ベンチマーク

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker：強化学習を活用した「動画を用いた思考」の促進

ビデオ理解

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder：コードインテリジェンスのための基盤的視覚・プログラマティックインターフェースへ向けて

コード生成

マルチモーダル

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow：大規模言語モデルエージェントが現実世界の多様でスケーラブルなMCPツールを習得するのを支援する

エージェント

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast：時間スケールにわたる気象予測のためのマスクされた潜在拡散モデル

拡散モデル

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

動画生成のための均一離散拡散とメトリック経路

画像から動画生成

拡散モデル

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS：スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル

エージェント

Zihao Wang, Xujing Li, Yining Ye, et al.

ロボオムニ：オムニモーダルな文脈における能動的ロボット操作

エムボディドインテリジェンス

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold：能動的コンテキスト管理を備えた長期予測Webエージェント

エージェント

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

通義ディープリサーチ技術報告

エージェント

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp：曖昧なクエリを用いた検索エージェントの評価

ベンチマーク

エージェント

Mingyi Deng, Lijun Huang, Yani Fan, et al.

VLM-SlideEval：PPTにおける構造的理解力および摂動感受性に関するVLMの評価

ドキュメント理解

ベンチマーク

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World：エンドツーエンド自動運転向け世界規模の安全関連データ合成

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

ラックヘッドアンカリング：音声駆動型人間アニメーションにおけるキャラクター個体性の保持

マルチモーダル

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E：同時視覚、聴覚、発話および行動を伴う自然なエンボディドインタラクション

エージェント

エムボディドインテリジェンス

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER：画素上におけるフロー自己回帰型トランスフォーマー

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

データエージェントに関する総説：新たなパラダイムか、過大評価されたブームか？

エージェント

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode：包括する粒度制御のための計画と実行の統一

コード生成

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

コンチェルト：2次元-3次元連合自己教師学習が空間表現を生み出す

マルチモーダル表現

コンピュータビジョン

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

マゼラン：潜在空間探索および新規性生成のための誘導付きMCTS

テキスト生成

DEEDEE：分布外動態の高速かつスケーラブルな検出

モデリング

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

トークン順列を用いたスパーサーなブロックスパース注意力

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

AGIの定義

ベンチマーク

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

ノイズ除去から精緻化へ：視覚言語拡散モデルのための補正フレームワーク

拡散モデル

マルチモーダル

Yatai Ji, Teng Wang, Yuying Ge, et al.

ステップバイステップ、チャンクごとに最適化：テキストから画像生成におけるチャンクレベルGRPO

テキストから画像生成

Yifu Luo, Penghui Du, Bo Li, et al.

ビデオ・アス・プロンプト：ビデオ生成における統一された意味制御

画像から動画生成

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent：スケーラブルなツールセットを備えた汎用推論エージェント

エージェント

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

人間とAIの補完性：拡張された監視のための目標

人間とAIの補完性：拡張された監視のための目標

人間-コンピュータインタラクション

自然言語処理

Rishub Jain, Sophie Bridgers, Lili Janzer, et al.

GPTOpt：効率的なLLMベースのブラックボックス最適化へ向けて

GPTOpt：効率的なLLMベースのブラックボックス最適化へ向けて

監視付き微調整

Jamison Meindl, Yunsheng Tian, Tony Cui, et al.

VFXMaster：文脈学習を活用した動的ビジュアルエフェクト生成の解明

画像から動画生成

Baolu Li, Yiming Zhang, Qinghe Wang, et al.

プロセスマイニングを用いた推論対応型GRPO

Taekhyun Park, Yongjae Lee, Hyerim Bae

ループ型言語モデルを用いた潜在的推論のスケーリング

Rui-Jie Zhu, Zixuan Wang, Kai Hua, et al.

ReForm：予測的有限列最適化を用いた反映型オートフォーマライゼーション

ベンチマーク

Guoxin Chen, Jing Wu, Xinjie Chen, et al.

Video-Thinker：強化学習を活用した「動画を用いた思考」の促進

ビデオ理解

Shijian Wang, Jiarui Jin, Xingjian Wang, et al.

JanusCoder：コードインテリジェンスのための基盤的視覚・プログラマティックインターフェースへ向けて

コード生成

マルチモーダル

Qiushi Sun, Jingyang Gong, Yang Liu, et al.

MCP-Flow：大規模言語モデルエージェントが現実世界の多様でスケーラブルなMCPツールを習得するのを支援する

エージェント

Wenhao Wang, Peizhi Niu, Zhao Xu, et al.

OmniCast：時間スケールにわたる気象予測のためのマスクされた潜在拡散モデル

拡散モデル

Tung Nguyen, Tuan Pham, Troy Arcomano, et al.

動画生成のための均一離散拡散とメトリック経路

画像から動画生成

拡散モデル

Haoge Deng, Ting Pan, Fan Zhang, et al.

Game-TARS：スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル

エージェント

Zihao Wang, Xujing Li, Yining Ye, et al.

ロボオムニ：オムニモーダルな文脈における能動的ロボット操作

エムボディドインテリジェンス

Siyin Wang, Jinlan Fu, Feihong Liu, et al.

AgentFold：能動的コンテキスト管理を備えた長期予測Webエージェント

エージェント

Rui Ye, Zhongwang Zhang, Kuan Li, et al.

通義ディープリサーチ技術報告

エージェント

Tongyi DeepResearch Team, Baixuan Li, Bo Zhang, et al.

InteractComp：曖昧なクエリを用いた検索エージェントの評価

ベンチマーク

エージェント

Mingyi Deng, Lijun Huang, Yani Fan, et al.

VLM-SlideEval：PPTにおける構造的理解力および摂動感受性に関するVLMの評価

ドキュメント理解

ベンチマーク

Hyeonsu Kang, Emily Bao, Anjan Goswami

TeraSim-World：エンドツーエンド自動運転向け世界規模の安全関連データ合成

Jiawei Wang, Haowei Sun, Xintao Yan, et al.

ラックヘッドアンカリング：音声駆動型人間アニメーションにおけるキャラクター個体性の保持

マルチモーダル

Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, et al.

VITA-E：同時視覚、聴覚、発話および行動を伴う自然なエンボディドインタラクション

エージェント

エムボディドインテリジェンス

Xiaoyu Liu, Chaoyou Fu, Chi Yan, et al.

FARMER：画素上におけるフロー自己回帰型トランスフォーマー

Guangting Zheng, Qinyu Zhao, Tao Yang, et al.

データエージェントに関する総説：新たなパラダイムか、過大評価されたブームか？

エージェント

Yizhang Zhu, Liangwei Wang, Chenyu Yang, et al.

ReCode：包括する粒度制御のための計画と実行の統一

コード生成

Zhaoyang Yu, Jiayi Zhang, Huixue Su, et al.

コンチェルト：2次元-3次元連合自己教師学習が空間表現を生み出す

マルチモーダル表現

コンピュータビジョン

Yujia Zhang, Xiaoyang Wu, Yixing Lao, et al.

マゼラン：潜在空間探索および新規性生成のための誘導付きMCTS

テキスト生成

DEEDEE：分布外動態の高速かつスケーラブルな検出

モデリング

Tala Aljaafari, Varun Kanade, Philip Torr, et al.

トークン順列を用いたスパーサーなブロックスパース注意力

Xinghao Wang, Pengyu Wang, Dong Zhang, et al.

AGIの定義

ベンチマーク

Dan Hendrycks, Dawn Song, Christian Szegedy, et al.

ノイズ除去から精緻化へ：視覚言語拡散モデルのための補正フレームワーク

拡散モデル

マルチモーダル

Yatai Ji, Teng Wang, Yuying Ge, et al.

ステップバイステップ、チャンクごとに最適化：テキストから画像生成におけるチャンクレベルGRPO

テキストから画像生成

Yifu Luo, Penghui Du, Bo Li, et al.

ビデオ・アス・プロンプト：ビデオ生成における統一された意味制御

画像から動画生成

Yuxuan Bian, Xin Chen, Zenan Li, et al.

DeepAgent：スケーラブルなツールセットを備えた汎用推論エージェント

エージェント

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin, et al.

VFXMaster：文脈学習を活用した動的ビジュアルエフェクト生成の解明

プロセスマイニングを用いた推論対応型GRPO

ループ型言語モデルを用いた潜在的推論のスケーリング

ReForm：予測的有限列最適化を用いた反映型オートフォーマライゼーション

Video-Thinker：強化学習を活用した「動画を用いた思考」の促進

JanusCoder：コードインテリジェンスのための基盤的視覚・プログラマティックインターフェースへ向けて

MCP-Flow：大規模言語モデルエージェントが現実世界の多様でスケーラブルなMCPツールを習得するのを支援する

OmniCast：時間スケールにわたる気象予測のためのマスクされた潜在拡散モデル

動画生成のための均一離散拡散とメトリック経路

Game-TARS：スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル

ロボオムニ：オムニモーダルな文脈における能動的ロボット操作

AgentFold：能動的コンテキスト管理を備えた長期予測Webエージェント

通義ディープリサーチ技術報告

InteractComp：曖昧なクエリを用いた検索エージェントの評価

VLM-SlideEval：PPTにおける構造的理解力および摂動感受性に関するVLMの評価

TeraSim-World：エンドツーエンド自動運転向け世界規模の安全関連データ合成

ラックヘッドアンカリング：音声駆動型人間アニメーションにおけるキャラクター個体性の保持

VITA-E：同時視覚、聴覚、発話および行動を伴う自然なエンボディドインタラクション

FARMER：画素上におけるフロー自己回帰型トランスフォーマー

データエージェントに関する総説：新たなパラダイムか、過大評価されたブームか？

ReCode：包括する粒度制御のための計画と実行の統一

コンチェルト：2次元-3次元連合自己教師学習が空間表現を生み出す

マゼラン：潜在空間探索および新規性生成のための誘導付きMCTS

DEEDEE：分布外動態の高速かつスケーラブルな検出

トークン順列を用いたスパーサーなブロックスパース注意力

AGIの定義

ノイズ除去から精緻化へ：視覚言語拡散モデルのための補正フレームワーク

ステップバイステップ、チャンクごとに最適化：テキストから画像生成におけるチャンクレベルGRPO

ビデオ・アス・プロンプト：ビデオ生成における統一された意味制御

DeepAgent：スケーラブルなツールセットを備えた汎用推論エージェント

VFXMaster：文脈学習を活用した動的ビジュアルエフェクト生成の解明

プロセスマイニングを用いた推論対応型GRPO

ループ型言語モデルを用いた潜在的推論のスケーリング

ReForm：予測的有限列最適化を用いた反映型オートフォーマライゼーション

Video-Thinker：強化学習を活用した「動画を用いた思考」の促進

JanusCoder：コードインテリジェンスのための基盤的視覚・プログラマティックインターフェースへ向けて

MCP-Flow：大規模言語モデルエージェントが現実世界の多様でスケーラブルなMCPツールを習得するのを支援する

OmniCast：時間スケールにわたる気象予測のためのマスクされた潜在拡散モデル

動画生成のための均一離散拡散とメトリック経路

Game-TARS：スケーラブルな汎用マルチモーダルゲームエージェントのための事前学習基盤モデル

ロボオムニ：オムニモーダルな文脈における能動的ロボット操作

AgentFold：能動的コンテキスト管理を備えた長期予測Webエージェント

通義ディープリサーチ技術報告

InteractComp：曖昧なクエリを用いた検索エージェントの評価

VLM-SlideEval：PPTにおける構造的理解力および摂動感受性に関するVLMの評価

TeraSim-World：エンドツーエンド自動運転向け世界規模の安全関連データ合成

ラックヘッドアンカリング：音声駆動型人間アニメーションにおけるキャラクター個体性の保持

VITA-E：同時視覚、聴覚、発話および行動を伴う自然なエンボディドインタラクション

FARMER：画素上におけるフロー自己回帰型トランスフォーマー

データエージェントに関する総説：新たなパラダイムか、過大評価されたブームか？

ReCode：包括する粒度制御のための計画と実行の統一

コンチェルト：2次元-3次元連合自己教師学習が空間表現を生み出す

マゼラン：潜在空間探索および新規性生成のための誘導付きMCTS

DEEDEE：分布外動態の高速かつスケーラブルな検出

トークン順列を用いたスパーサーなブロックスパース注意力

AGIの定義

ノイズ除去から精緻化へ：視覚言語拡散モデルのための補正フレームワーク

ステップバイステップ、チャンクごとに最適化：テキストから画像生成におけるチャンクレベルGRPO

ビデオ・アス・プロンプト：ビデオ生成における統一された意味制御

DeepAgent：スケーラブルなツールセットを備えた汎用推論エージェント