HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

人間がループ内に参加する推論型大規模言語モデルエージェントを用いた自動ステレオタクティック放射線外科学計画

人間がループ内に参加する推論型大規模言語モデルエージェントを用いた自動ステレオタクティック放射線外科学計画

エージェント

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent：長時間動画を用いたマルチエージェント推論

LongVideoAgent：長時間動画を用いたマルチエージェント推論

エージェント

視覚質問応答

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv：LLMエージェントと環境シミュレータ間の難易度整合型共進化

エージェント

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp：非同期ビデオディフュージョンを用いた3Dジオメトリの伝播

拡散モデル

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner：メトリック感知視覚幾何を備えた局所化基盤型ナビゲーション方策

エムボディドインテリジェンス

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLMは学生の困難を推定できるか？プロフィシエンシー・シミュレーションを用いた人間-AI難易度整合による項目難易度予測

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG：事前学習コーパスからの不確実性の定量化による動的リトリーブ増強生成

検索拡張生成

インテリジェントな質問応答

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

プリズム仮説：統一オートエンコーディングを用いた意味表現とピクセル表現の調和

マルチモーダル表現

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K：テキスト誘導型医療画像編集を目的としたマルチモダリティ大規模データセット

データセット

テキストから画像生成

Zhihui Chen, Mengling Feng

Kascade：長文脈LLM推論における実用的なスパースアテンション手法

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5：エージェント機能、推論能力、コーディングを備えたARC基盤モデル

エージェント

GroundingME：多次元評価によるMLLMにおける視覚的接地ギャップの暴露

マルチモーダル

ベンチマーク

Rang Li, Lei Li, Shuhuai Ren, et al.

意味と再構成の両方が重要である：テキストから画像生成および編集に適した表現エンコーダーの構築

テキストから画像生成

拡散モデル

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT：知覚蒸留を活用した領域レベルにおける4D理解への道標

視覚質問応答

マルチモーダル表現

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

Seed-Prover 1.5：経験からの学習による学部レベル定理証明の習得

コード生成

エージェント

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

推論が法則に出会うとき

ベンチマーク

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

LLMの科学的汎用知能を科学者に整合したワークフローで探求する

ベンチマーク

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2：360-オープン、推論強化型LLM

監視付き微調整

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD：多プラットフォームGUIを活用した多様なグランドリングタスク向け包括的ベンチマーク

ベンチマーク

人間-コンピュータインタラクション

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF：科学講演から得られたマルチモーダル・クロスリンガル指示追従ベンチマーク

マルチモーダル

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen：汎用ゲームエージェント向けオープンフォンドレーションモデル

コンピュータビジョン

ビデオ理解

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

Hニューロン：大規模言語モデルにおける幻覚関連ニューロンの存在、影響および起源について

自然言語処理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

世界はあなたのキャンバスである：参照画像、軌道、テキストを用いたプロンプト可能なイベントの描写

テキストから動画

画像から動画生成

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

アルケミスト：メタ勾配データ選択によるテキストから画像へのモデル学習における効率性の解禁

テキストから画像生成

拡散モデル

Kaixin Ding, Yang Zhou, Xi Chen, et al.

Depth Any Panoramas: パノラマ深度推定のためのファウンデーションモデル

3D マシンビジョン

Xin Lin, Meixi Song, Dizhe Zhang, et al.

生成的焦点再調整：単一画像からの柔軟なボケ量制御

画像間変換

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot：生成的事前知識を用いた統一的で効率的なステレオ変換の学習

ビデオ処理

画像間変換

Guibao Shen, Yihua Du, Wenhang Ge, et al.

次Embedding予測が強力な視覚学習者を実現する

コンピュータビジョン

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

エージェントAI：マルチモーダルインタラクションの地平を探索する

エムボディドインテリジェンス

マルチモーダル

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

AI数学者を数学的発見の先導者として――均質化理論における事例研究

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2：テキストから画像評価におけるベンチマークのずれに対処する

テキストから画像生成

ベンチマーク

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR：説明可能なAIガイド付き微分プライバシーを用いた拡張現実におけるプライバシー攻撃防御

マルチモーダル

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

人間がループ内に参加する推論型大規模言語モデルエージェントを用いた自動ステレオタクティック放射線外科学計画

人間がループ内に参加する推論型大規模言語モデルエージェントを用いた自動ステレオタクティック放射線外科学計画

エージェント

Humza Nusrat, Luke Francisco, Bing Luo, et al.

LongVideoAgent：長時間動画を用いたマルチエージェント推論

LongVideoAgent：長時間動画を用いたマルチエージェント推論

エージェント

視覚質問応答

Runtao Liu, Ziyi Liu, Jiaqi Tang, et al.

GenEnv：LLMエージェントと環境シミュレータ間の難易度整合型共進化

エージェント

Jiacheng Guo, Ling Yang, Peter Chen, et al.

WorldWarp：非同期ビデオディフュージョンを用いた3Dジオメトリの伝播

拡散モデル

Hanyang Kong, Xingyi Yang, Xiaoxu Zheng, et al.

LoGoPlanner：メトリック感知視覚幾何を備えた局所化基盤型ナビゲーション方策

エムボディドインテリジェンス

Jiaqi Peng, Wenzhe Cai, Yuqiang Yang, et al.

LLMは学生の困難を推定できるか？プロフィシエンシー・シミュレーションを用いた人間-AI難易度整合による項目難易度予測

Ming Li, Han Chen, Yunze Xiao, et al.

QuCo-RAG：事前学習コーパスからの不確実性の定量化による動的リトリーブ増強生成

検索拡張生成

インテリジェントな質問応答

Dehai Min, Kailin Zhang, Tongtong Wu, et al.

プリズム仮説：統一オートエンコーディングを用いた意味表現とピクセル表現の調和

マルチモーダル表現

Weichen Fan, Haiwen Diao, Quan Wang, et al.

Med-Banana-50K：テキスト誘導型医療画像編集を目的としたマルチモダリティ大規模データセット

データセット

テキストから画像生成

Zhihui Chen, Mengling Feng

Kascade：長文脈LLM推論における実用的なスパースアテンション手法

Dhruv Deshmukh, Saurabh Goyal, Nipun Kwatra, et al.

GLM-4.5：エージェント機能、推論能力、コーディングを備えたARC基盤モデル

エージェント

GroundingME：多次元評価によるMLLMにおける視覚的接地ギャップの暴露

マルチモーダル

ベンチマーク

Rang Li, Lei Li, Shuhuai Ren, et al.

意味と再構成の両方が重要である：テキストから画像生成および編集に適した表現エンコーダーの構築

テキストから画像生成

拡散モデル

Shilong Zhang, He Zhang, Zhifei Zhang, et al.

4D-RGPT：知覚蒸留を活用した領域レベルにおける4D理解への道標

視覚質問応答

マルチモーダル表現

Chiao-An Yang, Ryo Hachiuma, Sifei Liu, et al.

Seed-Prover 1.5：経験からの学習による学部レベル定理証明の習得

コード生成

エージェント

Jiangjie Chen, Wenxiang Chen, Jiacheng Du, et al.

推論が法則に出会うとき

ベンチマーク

Junyu Zhang, Yifan Sun, Tianang Leng, et al.

LLMの科学的汎用知能を科学者に整合したワークフローで探求する

ベンチマーク

Wanghan Xu, Yuhao Zhou, Yifan Zhou, et al.

K2-V2：360-オープン、推論強化型LLM

監視付き微調整

Zhengzhong Liu, Liping Tang, Linghao Jin, et al.

VenusBench-GD：多プラットフォームGUIを活用した多様なグランドリングタスク向け包括的ベンチマーク

ベンチマーク

人間-コンピュータインタラクション

Beitong Zhou, Zhexiao Huang, Yuan Guo, et al.

MCIF：科学講演から得られたマルチモーダル・クロスリンガル指示追従ベンチマーク

マルチモーダル

Sara Papi, Maike Züfle, Marco Gaido, et al.

NitroGen：汎用ゲームエージェント向けオープンフォンドレーションモデル

コンピュータビジョン

ビデオ理解

Loic Magne, Anas Awadalla, Guanzhi Wang, et al.

Hニューロン：大規模言語モデルにおける幻覚関連ニューロンの存在、影響および起源について

自然言語処理

Cheng Gao, Huimin Chen, Chaojun Xiao, et al.

世界はあなたのキャンバスである：参照画像、軌道、テキストを用いたプロンプト可能なイベントの描写

テキストから動画

画像から動画生成

Hanlin Wang, Hao Ouyang, Qiuyu Wang, et al.

アルケミスト：メタ勾配データ選択によるテキストから画像へのモデル学習における効率性の解禁

テキストから画像生成

拡散モデル

Kaixin Ding, Yang Zhou, Xi Chen, et al.

Depth Any Panoramas: パノラマ深度推定のためのファウンデーションモデル

3D マシンビジョン

Xin Lin, Meixi Song, Dizhe Zhang, et al.

生成的焦点再調整：単一画像からの柔軟なボケ量制御

画像間変換

Chun-Wei Tuan Mu, Jia-Bin Huang, Yu-Lun Liu

StereoPilot：生成的事前知識を用いた統一的で効率的なステレオ変換の学習

ビデオ処理

画像間変換

Guibao Shen, Yihua Du, Wenhang Ge, et al.

次Embedding予測が強力な視覚学習者を実現する

コンピュータビジョン

Sihan Xu, Ziqiao Ma, Wenhao Chai, et al.

エージェントAI：マルチモーダルインタラクションの地平を探索する

エムボディドインテリジェンス

マルチモーダル

Zane Durante, Qiuyuan Huang, Naoki Wake, et al.

AI数学者を数学的発見の先導者として――均質化理論における事例研究

Yuanhang Liu, Beichen Wang, Peng Li, et al.

GenEval 2：テキストから画像評価におけるベンチマークのずれに対処する

テキストから画像生成

ベンチマーク

Amita Kamath, Kai-Wei Chang, Ranjay Krishna, et al.

PrivateXR：説明可能なAIガイド付き微分プライバシーを用いた拡張現実におけるプライバシー攻撃防御

マルチモーダル

Ripan Kumar Kundu, Istiak Ahmed, Khaza Anuarul Hoque

GenEnv：LLMエージェントと環境シミュレータ間の難易度整合型共進化

WorldWarp：非同期ビデオディフュージョンを用いた3Dジオメトリの伝播

LoGoPlanner：メトリック感知視覚幾何を備えた局所化基盤型ナビゲーション方策

LLMは学生の困難を推定できるか？プロフィシエンシー・シミュレーションを用いた人間-AI難易度整合による項目難易度予測

QuCo-RAG：事前学習コーパスからの不確実性の定量化による動的リトリーブ増強生成

プリズム仮説：統一オートエンコーディングを用いた意味表現とピクセル表現の調和

Med-Banana-50K：テキスト誘導型医療画像編集を目的としたマルチモダリティ大規模データセット

Kascade：長文脈LLM推論における実用的なスパースアテンション手法

GLM-4.5：エージェント機能、推論能力、コーディングを備えたARC基盤モデル

GroundingME：多次元評価によるMLLMにおける視覚的接地ギャップの暴露

意味と再構成の両方が重要である：テキストから画像生成および編集に適した表現エンコーダーの構築

4D-RGPT：知覚蒸留を活用した領域レベルにおける4D理解への道標

Seed-Prover 1.5：経験からの学習による学部レベル定理証明の習得

推論が法則に出会うとき

LLMの科学的汎用知能を科学者に整合したワークフローで探求する

K2-V2：360-オープン、推論強化型LLM

VenusBench-GD：多プラットフォームGUIを活用した多様なグランドリングタスク向け包括的ベンチマーク

MCIF：科学講演から得られたマルチモーダル・クロスリンガル指示追従ベンチマーク

NitroGen：汎用ゲームエージェント向けオープンフォンドレーションモデル

Hニューロン：大規模言語モデルにおける幻覚関連ニューロンの存在、影響および起源について

世界はあなたのキャンバスである：参照画像、軌道、テキストを用いたプロンプト可能なイベントの描写

アルケミスト：メタ勾配データ選択によるテキストから画像へのモデル学習における効率性の解禁

Depth Any Panoramas: パノラマ深度推定のためのファウンデーションモデル

生成的焦点再調整：単一画像からの柔軟なボケ量制御

StereoPilot：生成的事前知識を用いた統一的で効率的なステレオ変換の学習

次Embedding予測が強力な視覚学習者を実現する

エージェントAI：マルチモーダルインタラクションの地平を探索する

AI数学者を数学的発見の先導者として――均質化理論における事例研究

GenEval 2：テキストから画像評価におけるベンチマークのずれに対処する

PrivateXR：説明可能なAIガイド付き微分プライバシーを用いた拡張現実におけるプライバシー攻撃防御

GenEnv：LLMエージェントと環境シミュレータ間の難易度整合型共進化

WorldWarp：非同期ビデオディフュージョンを用いた3Dジオメトリの伝播

LoGoPlanner：メトリック感知視覚幾何を備えた局所化基盤型ナビゲーション方策

LLMは学生の困難を推定できるか？プロフィシエンシー・シミュレーションを用いた人間-AI難易度整合による項目難易度予測

QuCo-RAG：事前学習コーパスからの不確実性の定量化による動的リトリーブ増強生成

プリズム仮説：統一オートエンコーディングを用いた意味表現とピクセル表現の調和

Med-Banana-50K：テキスト誘導型医療画像編集を目的としたマルチモダリティ大規模データセット

Kascade：長文脈LLM推論における実用的なスパースアテンション手法

GLM-4.5：エージェント機能、推論能力、コーディングを備えたARC基盤モデル

GroundingME：多次元評価によるMLLMにおける視覚的接地ギャップの暴露

意味と再構成の両方が重要である：テキストから画像生成および編集に適した表現エンコーダーの構築

4D-RGPT：知覚蒸留を活用した領域レベルにおける4D理解への道標

Seed-Prover 1.5：経験からの学習による学部レベル定理証明の習得

推論が法則に出会うとき

LLMの科学的汎用知能を科学者に整合したワークフローで探求する

K2-V2：360-オープン、推論強化型LLM

VenusBench-GD：多プラットフォームGUIを活用した多様なグランドリングタスク向け包括的ベンチマーク

MCIF：科学講演から得られたマルチモーダル・クロスリンガル指示追従ベンチマーク

NitroGen：汎用ゲームエージェント向けオープンフォンドレーションモデル

Hニューロン：大規模言語モデルにおける幻覚関連ニューロンの存在、影響および起源について

世界はあなたのキャンバスである：参照画像、軌道、テキストを用いたプロンプト可能なイベントの描写

アルケミスト：メタ勾配データ選択によるテキストから画像へのモデル学習における効率性の解禁

Depth Any Panoramas: パノラマ深度推定のためのファウンデーションモデル

生成的焦点再調整：単一画像からの柔軟なボケ量制御

StereoPilot：生成的事前知識を用いた統一的で効率的なステレオ変換の学習

次Embedding予測が強力な視覚学習者を実現する

エージェントAI：マルチモーダルインタラクションの地平を探索する

AI数学者を数学的発見の先導者として――均質化理論における事例研究

GenEval 2：テキストから画像評価におけるベンチマークのずれに対処する

PrivateXR：説明可能なAIガイド付き微分プライバシーを用いた拡張現実におけるプライバシー攻撃防御