HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

MobileForge: アノテーション不要のモバイルGUI Agentsへの階層フィードバック誘導ポリシー最適化による適応

MobileForge: アノテーション不要のモバイルGUI Agentsへの階層フィードバック誘導ポリシー最適化による適応

エージェント

マルチモーダル

Guangyi Liu, Pengxiang Zhao, Gao Wu, et al.

NatureBench: Coding AgentsはNature系論文の公開済みSOTAに匹敵できるか？

NatureBench: Coding AgentsはNature系論文の公開済みSOTAに匹敵できるか？

ベンチマーク

サイエンスのためのAI

Yuru Wang, Lejun Cheng, Yuxin Zuo, et al.

Qwen-AgentWorld: 汎用Agents向けの言語世界モデル

エージェント

Yuxin Zuo, Zikai Xiao, Li Sheng, et al.

ユニバーサル音声強化のための学習目標、アーキテクチャ、およびデータ品質の再考

音声および音声処理

Szu-Wei Fu, Rong Chao, Xuesong Yang, et al.

学習された密度制御を備えた生成型3Dガウス分布

拡散モデル

Runjie Yan, Yan-Pei Cao, Peng Wang, et al.

TADA: テキスト・音響二重整合性を介した音声モデリングのための生成フレームワーク

Trung Dang, Sharath Rao, Ananya Gupta, et al.

孤立した単語を超えて：手書きテキスト行生成のためのDiffusion Brush

拡散モデル

Gang Dai, Yifan Zhang, Yutao Qin, et al.

gsplat: ガウシアンスプッティングのためのオープンソースライブラリ

Vickie Ye, Ruilong Li, Justin Kerr, et al.

OmniVideo-100K: 構造化スクリプトと証拠連鎖を通じた映像推理のためのデータセット

ビデオ理解

視覚質問応答

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, et al.

OPEN-SWE-TRACES: ソフトウェアエンジニアリングエージェントのための双モード多言語ディストillationの進展

コード生成

テキスト生成

Wasi Uddin Ahmad, Nikolai Ludwig, Somshubra Majumdar, et al.

言語モデルの推論におけるリセットを用いた信用配分

Ankur Samanta, Akshayaa Magesh, Ayush Jain, et al.

無制限のOCR処理：ワンショット長文脈解析の時代へようこそ

Baoding Zhou, Jingyun Wang, Xiaolin Wei, et al.

PlanBench-XL: 大規模ツールエコシステムにおけるLLMツール使用Agentsの長期計画の評価

エージェント

Jiayu Liu, Qihan Lin, Cheng Qian, et al.

OpenRath: Agent システムのためのセッション中心実行時状態

エージェント

Fukang Wen, Zhijie Wang, Ruilin Xu

EvoEmbedding: 長文脈検索およびエージェントメモリのための進化可能な表現

検索拡張生成

エージェント

Chang Nie, Chaoyou Fu, Junlan Feng, et al.

自分の間違いから学ぶ：自己蒸留のための学習可能な微小反射軌跡の構築

Zhilin Huang, Hang Gao, Ziqiang Dong, et al.

世界行動モデル：総説

エージェント

Qiuhong Shen, Shihua Zhang, Yue Liao, et al.

KaLM-Reranker-V1: 圧縮文書の再ランク付けのための高速だが後期相互作用ではない

Xinping Zhao, Jiaxin Xu, Ziqi Dai, et al.

LLMのFP4事前学習における収束バイアスの再考：幾何学的起源、系統的影響、およびUFP4レシピ

モデル学習

Qian Zhao, Kunlong Chen, Changxin Tian, et al.

HydraHead: ヘッドレベルの機能的異方性から専門化された注意機構のハイブリッド化へ

Zhentao Tan, Wei Chen, Jingyi Shen, et al.

3DCodeBench: コードによるエージェント型手続的3Dモデリングの評価

コード生成

Yipeng Gao, Lei Shu, Genzhi Ye, et al.

RadImageNet-VQA: 放射線学的視覚質問応答のための大規模なCTおよびMRIデータセット

視覚質問応答

Leo Butsanets, Charles Corbiere, Julien Khlaut, et al.

SWE-Gymを用いたソフトウェアエンジニアリングエージェントおよびベンチマークのトレーニング

エージェント

監視付き微調整

Jiayi Pan, Xingyao Wang, Graham Neubig, et al.

MAKIEVAL: 大規模言語モデルの文化的認識評価のための多言語・自動的なWiKIdataベースのフレームワーク

テキスト生成

Raoyuan Zhao, Beiduo Chen, Barbara Plank, et al.

GeneralVLA-2: 幾何構造認識型再構築と制御されたメモリによるロボット計画

3D マシンビジョン

検索拡張生成

Haoyu Wang, Guoqing Ma, Zeyu Zhang, et al.

多ターン内省的マスキングはマスク拡散モデルにおける推論を引き出す

拡散モデル

テキスト生成

Yanming Zhang, Yihan Bian, Jingyuan Qi, et al.

BrainG3N: 制御可能な3D脳MRI生成のための二重目的トークナイザー

拡散モデル

Max Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, et al.

GateMem: 複数主体共有メモリAgentsにおけるメモリガバナンスのベンチマーク

エージェント

ベンチマーク

Zhe Ren, Yibo Yang, Yimeng Chen, et al.

MemSlides：マルチターンローカル修正を用いたパーソナライズされたスライド生成のための階層型メモリ駆動型Agentフレームワーク

エージェント

Ye Jin, Yangyang Xu, Jun Zhu, et al.

PerceptionDLM: マルチモーダル拡散言語モデルを用いた並列領域知覚

拡散モデル

Yueyi Sun, Yuhao Wang, Jason Li, et al.

一般ゲームプレイのためのコード世界モデル

コード生成

Wolfgang Lehrach, Daniel Hennes, Miguel Lázaro-Gredilla, et al.

静的リーダーボードを超えて：LLM agentsの評価における予測妥当性

ベンチマーク

エージェント

Dhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, et al.

MobileForge: アノテーション不要のモバイルGUI Agentsへの階層フィードバック誘導ポリシー最適化による適応

MobileForge: アノテーション不要のモバイルGUI Agentsへの階層フィードバック誘導ポリシー最適化による適応

エージェント

マルチモーダル

Guangyi Liu, Pengxiang Zhao, Gao Wu, et al.

NatureBench: Coding AgentsはNature系論文の公開済みSOTAに匹敵できるか？

NatureBench: Coding AgentsはNature系論文の公開済みSOTAに匹敵できるか？

ベンチマーク

サイエンスのためのAI

Yuru Wang, Lejun Cheng, Yuxin Zuo, et al.

Qwen-AgentWorld: 汎用Agents向けの言語世界モデル

エージェント

Yuxin Zuo, Zikai Xiao, Li Sheng, et al.

ユニバーサル音声強化のための学習目標、アーキテクチャ、およびデータ品質の再考

音声および音声処理

Szu-Wei Fu, Rong Chao, Xuesong Yang, et al.

学習された密度制御を備えた生成型3Dガウス分布

拡散モデル

Runjie Yan, Yan-Pei Cao, Peng Wang, et al.

TADA: テキスト・音響二重整合性を介した音声モデリングのための生成フレームワーク

Trung Dang, Sharath Rao, Ananya Gupta, et al.

孤立した単語を超えて：手書きテキスト行生成のためのDiffusion Brush

拡散モデル

Gang Dai, Yifan Zhang, Yutao Qin, et al.

gsplat: ガウシアンスプッティングのためのオープンソースライブラリ

Vickie Ye, Ruilong Li, Justin Kerr, et al.

OmniVideo-100K: 構造化スクリプトと証拠連鎖を通じた映像推理のためのデータセット

ビデオ理解

視覚質問応答

Xinyue Cai, Chaoyou Fu, Yi-Fan Zhang, et al.

OPEN-SWE-TRACES: ソフトウェアエンジニアリングエージェントのための双モード多言語ディストillationの進展

コード生成

テキスト生成

Wasi Uddin Ahmad, Nikolai Ludwig, Somshubra Majumdar, et al.

言語モデルの推論におけるリセットを用いた信用配分

Ankur Samanta, Akshayaa Magesh, Ayush Jain, et al.

無制限のOCR処理：ワンショット長文脈解析の時代へようこそ

Baoding Zhou, Jingyun Wang, Xiaolin Wei, et al.

PlanBench-XL: 大規模ツールエコシステムにおけるLLMツール使用Agentsの長期計画の評価

エージェント

Jiayu Liu, Qihan Lin, Cheng Qian, et al.

OpenRath: Agent システムのためのセッション中心実行時状態

エージェント

Fukang Wen, Zhijie Wang, Ruilin Xu

EvoEmbedding: 長文脈検索およびエージェントメモリのための進化可能な表現

検索拡張生成

エージェント

Chang Nie, Chaoyou Fu, Junlan Feng, et al.

自分の間違いから学ぶ：自己蒸留のための学習可能な微小反射軌跡の構築

Zhilin Huang, Hang Gao, Ziqiang Dong, et al.

世界行動モデル：総説

エージェント

Qiuhong Shen, Shihua Zhang, Yue Liao, et al.

KaLM-Reranker-V1: 圧縮文書の再ランク付けのための高速だが後期相互作用ではない

Xinping Zhao, Jiaxin Xu, Ziqi Dai, et al.

LLMのFP4事前学習における収束バイアスの再考：幾何学的起源、系統的影響、およびUFP4レシピ

モデル学習

Qian Zhao, Kunlong Chen, Changxin Tian, et al.

HydraHead: ヘッドレベルの機能的異方性から専門化された注意機構のハイブリッド化へ

Zhentao Tan, Wei Chen, Jingyi Shen, et al.

3DCodeBench: コードによるエージェント型手続的3Dモデリングの評価

コード生成

Yipeng Gao, Lei Shu, Genzhi Ye, et al.

RadImageNet-VQA: 放射線学的視覚質問応答のための大規模なCTおよびMRIデータセット

視覚質問応答

Leo Butsanets, Charles Corbiere, Julien Khlaut, et al.

SWE-Gymを用いたソフトウェアエンジニアリングエージェントおよびベンチマークのトレーニング

エージェント

監視付き微調整

Jiayi Pan, Xingyao Wang, Graham Neubig, et al.

MAKIEVAL: 大規模言語モデルの文化的認識評価のための多言語・自動的なWiKIdataベースのフレームワーク

テキスト生成

Raoyuan Zhao, Beiduo Chen, Barbara Plank, et al.

GeneralVLA-2: 幾何構造認識型再構築と制御されたメモリによるロボット計画

3D マシンビジョン

検索拡張生成

Haoyu Wang, Guoqing Ma, Zeyu Zhang, et al.

多ターン内省的マスキングはマスク拡散モデルにおける推論を引き出す

拡散モデル

テキスト生成

Yanming Zhang, Yihan Bian, Jingyuan Qi, et al.

BrainG3N: 制御可能な3D脳MRI生成のための二重目的トークナイザー

拡散モデル

Max Van Puyvelde, Ibrahim Gulluk, Wim Van Criekinge, et al.

GateMem: 複数主体共有メモリAgentsにおけるメモリガバナンスのベンチマーク

エージェント

ベンチマーク

Zhe Ren, Yibo Yang, Yimeng Chen, et al.

MemSlides：マルチターンローカル修正を用いたパーソナライズされたスライド生成のための階層型メモリ駆動型Agentフレームワーク

エージェント

Ye Jin, Yangyang Xu, Jun Zhu, et al.

PerceptionDLM: マルチモーダル拡散言語モデルを用いた並列領域知覚

拡散モデル

Yueyi Sun, Yuhao Wang, Jason Li, et al.

一般ゲームプレイのためのコード世界モデル

コード生成

Wolfgang Lehrach, Daniel Hennes, Miguel Lázaro-Gredilla, et al.

静的リーダーボードを超えて：LLM agentsの評価における予測妥当性

ベンチマーク

エージェント

Dhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, et al.

Qwen-AgentWorld: 汎用Agents向けの言語世界モデル

ユニバーサル音声強化のための学習目標、アーキテクチャ、およびデータ品質の再考

学習された密度制御を備えた生成型3Dガウス分布

TADA: テキスト・音響二重整合性を介した音声モデリングのための生成フレームワーク

孤立した単語を超えて：手書きテキスト行生成のためのDiffusion Brush

gsplat: ガウシアンスプッティングのためのオープンソースライブラリ

OmniVideo-100K: 構造化スクリプトと証拠連鎖を通じた映像推理のためのデータセット

OPEN-SWE-TRACES: ソフトウェアエンジニアリングエージェントのための双モード多言語ディストillationの進展

言語モデルの推論におけるリセットを用いた信用配分

無制限のOCR処理：ワンショット長文脈解析の時代へようこそ

PlanBench-XL: 大規模ツールエコシステムにおけるLLMツール使用Agentsの長期計画の評価

OpenRath: Agent システムのためのセッション中心実行時状態

EvoEmbedding: 長文脈検索およびエージェントメモリのための進化可能な表現

自分の間違いから学ぶ：自己蒸留のための学習可能な微小反射軌跡の構築

世界行動モデル：総説

KaLM-Reranker-V1: 圧縮文書の再ランク付けのための高速だが後期相互作用ではない

LLMのFP4事前学習における収束バイアスの再考：幾何学的起源、系統的影響、およびUFP4レシピ

HydraHead: ヘッドレベルの機能的異方性から専門化された注意機構のハイブリッド化へ

3DCodeBench: コードによるエージェント型手続的3Dモデリングの評価

RadImageNet-VQA: 放射線学的視覚質問応答のための大規模なCTおよびMRIデータセット

SWE-Gymを用いたソフトウェアエンジニアリングエージェントおよびベンチマークのトレーニング

MAKIEVAL: 大規模言語モデルの文化的認識評価のための多言語・自動的なWiKIdataベースのフレームワーク

GeneralVLA-2: 幾何構造認識型再構築と制御されたメモリによるロボット計画

多ターン内省的マスキングはマスク拡散モデルにおける推論を引き出す

BrainG3N: 制御可能な3D脳MRI生成のための二重目的トークナイザー

GateMem: 複数主体共有メモリAgentsにおけるメモリガバナンスのベンチマーク

MemSlides：マルチターンローカル修正を用いたパーソナライズされたスライド生成のための階層型メモリ駆動型Agentフレームワーク

PerceptionDLM: マルチモーダル拡散言語モデルを用いた並列領域知覚

一般ゲームプレイのためのコード世界モデル

静的リーダーボードを超えて：LLM agentsの評価における予測妥当性

Qwen-AgentWorld: 汎用Agents向けの言語世界モデル

ユニバーサル音声強化のための学習目標、アーキテクチャ、およびデータ品質の再考

学習された密度制御を備えた生成型3Dガウス分布

TADA: テキスト・音響二重整合性を介した音声モデリングのための生成フレームワーク

孤立した単語を超えて：手書きテキスト行生成のためのDiffusion Brush

gsplat: ガウシアンスプッティングのためのオープンソースライブラリ

OmniVideo-100K: 構造化スクリプトと証拠連鎖を通じた映像推理のためのデータセット

OPEN-SWE-TRACES: ソフトウェアエンジニアリングエージェントのための双モード多言語ディストillationの進展

言語モデルの推論におけるリセットを用いた信用配分

無制限のOCR処理：ワンショット長文脈解析の時代へようこそ

PlanBench-XL: 大規模ツールエコシステムにおけるLLMツール使用Agentsの長期計画の評価

OpenRath: Agent システムのためのセッション中心実行時状態

EvoEmbedding: 長文脈検索およびエージェントメモリのための進化可能な表現

自分の間違いから学ぶ：自己蒸留のための学習可能な微小反射軌跡の構築

世界行動モデル：総説

KaLM-Reranker-V1: 圧縮文書の再ランク付けのための高速だが後期相互作用ではない

LLMのFP4事前学習における収束バイアスの再考：幾何学的起源、系統的影響、およびUFP4レシピ

HydraHead: ヘッドレベルの機能的異方性から専門化された注意機構のハイブリッド化へ

3DCodeBench: コードによるエージェント型手続的3Dモデリングの評価

RadImageNet-VQA: 放射線学的視覚質問応答のための大規模なCTおよびMRIデータセット

SWE-Gymを用いたソフトウェアエンジニアリングエージェントおよびベンチマークのトレーニング

MAKIEVAL: 大規模言語モデルの文化的認識評価のための多言語・自動的なWiKIdataベースのフレームワーク

GeneralVLA-2: 幾何構造認識型再構築と制御されたメモリによるロボット計画

多ターン内省的マスキングはマスク拡散モデルにおける推論を引き出す

BrainG3N: 制御可能な3D脳MRI生成のための二重目的トークナイザー

GateMem: 複数主体共有メモリAgentsにおけるメモリガバナンスのベンチマーク

MemSlides：マルチターンローカル修正を用いたパーソナライズされたスライド生成のための階層型メモリ駆動型Agentフレームワーク

PerceptionDLM: マルチモーダル拡散言語モデルを用いた並列領域知覚

一般ゲームプレイのためのコード世界モデル

静的リーダーボードを超えて：LLM agentsの評価における予測妥当性