HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

GTool：大規模言語モデルを用いたグラフ強化型ツール計画

GTool：大規模言語モデルを用いたグラフ強化型ツール計画

Wenjie Chen, Wenbin Li, Di Yao, et al.

機械学習を活用した一定電位フレームワークによるリチウム金属-電解質界面における樹状金属析出の観察

機械学習を活用した一定電位フレームワークによるリチウム金属-電解質界面における樹状金属析出の観察

サイエンスのためのAI

ディープラーニング

Taiping Hu, Haichao Huang, Guobing Zhou, et al.

XQuant：KVキャッシュの再生成によるLLM推論におけるメモリ壁の突破

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb：1兆スケールの事前学習における合成データのスケーリングから得た教訓

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister：階層的レジスタインデックスを活用した柔軟な粒度の論文検索の向上

ドキュメント理解

自然言語処理

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

マルチタスク学習

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL：自己探索強化学習

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

タイム：画像を超えて考える

マルチモーダル

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

文化的知識を用いた多言語多モーダル大規模言語モデルの接地

視覚質問応答

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2：大規模高帯域音声データセット

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope：大規模言語モデルを活用した暗号論的論理バグの自動検出

検索拡張生成

Zhihao Li, Zimo Ji, Tao Zheng, et al.

医療グラフRAG：グラフ検索拡張生成による安全な医療大規模言語モデルへの道

検索拡張生成

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer：3Dモデルのラギングおよびアニメーション化

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R：因果トランスフォーマーを用いたスケーラブルな順次3次元再構成

3D マシンビジョン

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

序章：長文脈にわたる全体的理解と推論を要するベンチマーク

検索拡張生成

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer：生成後キーふりによるアニメ制作の効率化

画像から動画生成

画像間変換

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1：スケールにおける連続トークンを用いた自己回帰型画像生成へ

テキストから画像生成

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0：視覚的数学的推論を促進するための汎用数学書システム

データセット

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA：クラウド観察と推論包含を備えた視覚質問応答ベンチマーク

視覚質問応答

ベンチマーク

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer：スケーラブルな画像および動画操作の局所的・包括的注意力枠組み

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive：空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転

Jian Wang, Chaokang Jiang, Haitao Xu

見る、聞く、覚える、推論する：長期記憶を備えたマルチモーダルエージェント

エージェント

Lin Long, Yichen He, Wentao Ye, et al.

拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる

拡散モデル

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld：安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決

エージェント

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board：表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ

テキストから画像生成

David Dinkevich, Matan Levy, Omri Avrahami, et al.

スタンドイン：動画生成のための軽量かつ即時接続型アイデンティティ制御

画像から動画生成

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1：分子発見における明示的長期CoT推論への挑戦

監視付き微調整

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron：効率的な推論モデル

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

ドキュメントヘイストック：長文脈マルチモーダル画像／ドキュメント理解を対象としたビジョンLLMベンチマーク

ドキュメント理解

視覚ドキュメント検索

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o：GPT-4oによる合成画像の力を活用した画像生成の向上

テキストから画像生成

データセット

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色

コンピュータビジョン

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex：視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成

コード生成

マルチモーダル表現

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

GTool：大規模言語モデルを用いたグラフ強化型ツール計画

GTool：大規模言語モデルを用いたグラフ強化型ツール計画

Wenjie Chen, Wenbin Li, Di Yao, et al.

機械学習を活用した一定電位フレームワークによるリチウム金属-電解質界面における樹状金属析出の観察

機械学習を活用した一定電位フレームワークによるリチウム金属-電解質界面における樹状金属析出の観察

サイエンスのためのAI

ディープラーニング

Taiping Hu, Haichao Huang, Guobing Zhou, et al.

XQuant：KVキャッシュの再生成によるLLM推論におけるメモリ壁の突破

Aditya Tomar, Coleman Hooper, Minjae Lee, et al.

BeyondWeb：1兆スケールの事前学習における合成データのスケーリングから得た教訓

Pratyush Maini, Vineeth Dorna, Parth Doshi, et al.

PaperRegister：階層的レジスタインデックスを活用した柔軟な粒度の論文検索の向上

ドキュメント理解

自然言語処理

Zhuoqun Li, Xuanang Chen, Hongyu Lin, et al.

DINOv3

マルチタスク学習

Oriane Siméoni, Huy V. Vo, Maximilian Seitzer, et al.

SSRL：自己探索強化学習

Yuchen Fan, Kaiyan Zhang, Heng Zhou, et al.

タイム：画像を超えて考える

マルチモーダル

Yi-Fan Zhang, Xingyu Lu, Shukang Yin, et al.

文化的知識を用いた多言語多モーダル大規模言語モデルの接地

視覚質問応答

Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.

HiFiTTS-2：大規模高帯域音声データセット

Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.

CryptoScope：大規模言語モデルを活用した暗号論的論理バグの自動検出

検索拡張生成

Zhihao Li, Zimo Ji, Tao Zheng, et al.

医療グラフRAG：グラフ検索拡張生成による安全な医療大規模言語モデルへの道

検索拡張生成

Junde Wu, Jiayuan Zhu, Yunli Qi, et al.

Puppeteer：3Dモデルのラギングおよびアニメーション化

Chaoyue Song, Xiu Li, Fan Yang, et al.

STream3R：因果トランスフォーマーを用いたスケーラブルな順次3次元再構成

3D マシンビジョン

Yushi Lan, Yihang Luo, Fangzhou Hong, et al.

序章：長文脈にわたる全体的理解と推論を要するベンチマーク

検索拡張生成

Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.

ToonComposer：生成後キーふりによるアニメ制作の効率化

画像から動画生成

画像間変換

Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.

NextStep-1：スケールにおける連続トークンを用いた自己回帰型画像生成へ

テキストから画像生成

NextStep Team, Chunrui Han, Guopeng Li, et al.

We-Math 2.0：視覚的数学的推論を促進するための汎用数学書システム

データセット

Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.

COREVQA：クラウド観察と推論包含を備えた視覚質問応答ベンチマーク

視覚質問応答

ベンチマーク

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.

RelayFormer：スケーラブルな画像および動画操作の局所的・包括的注意力枠組み

Wen Huang, Jiarui Yang, Tao Dai, et al.

GMF-Drive：空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転

Jian Wang, Chaokang Jiang, Haitao Xu

見る、聞く、覚える、推論する：長期記憶を備えたマルチモーダルエージェント

エージェント

Lin Long, Yichen He, Wentao Ye, et al.

拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる

拡散モデル

Xu Wang, Chenkai Xu, Yijie Jin, et al.

AWorld：安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決

エージェント

Zhitian Xie, Qintong Wu, Chengyue Yu, et al.

Story2Board：表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ

テキストから画像生成

David Dinkevich, Matan Levy, Omri Avrahami, et al.

スタンドイン：動画生成のための軽量かつ即時接続型アイデンティティ制御

画像から動画生成

Bowen Xue, Qixin Yan, Wenjing Wang, et al.

Mol-R1：分子発見における明示的長期CoT推論への挑戦

監視付き微調整

Jiatong Li, Weida Wang, Qinggang Zhang, et al.

Llama-Nemotron：効率的な推論モデル

Akhiad Bercovich, Itay Levy, Izik Golan, et al.

ドキュメントヘイストック：長文脈マルチモーダル画像／ドキュメント理解を対象としたビジョンLLMベンチマーク

ドキュメント理解

視覚ドキュメント検索

Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.

Echo-4o：GPT-4oによる合成画像の力を活用した画像生成の向上

テキストから画像生成

データセット

Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.

ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色

コンピュータビジョン

Yijie Zhang, Luzhe Huang, Nir Pillar, et al.

VisCodex：視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成

コード生成

マルチモーダル表現

Lingjie Jiang, Shaohan Huang, Xun Wu, et al.

XQuant：KVキャッシュの再生成によるLLM推論におけるメモリ壁の突破

BeyondWeb：1兆スケールの事前学習における合成データのスケーリングから得た教訓

PaperRegister：階層的レジスタインデックスを活用した柔軟な粒度の論文検索の向上

DINOv3

SSRL：自己探索強化学習

タイム：画像を超えて考える

文化的知識を用いた多言語多モーダル大規模言語モデルの接地

HiFiTTS-2：大規模高帯域音声データセット

CryptoScope：大規模言語モデルを活用した暗号論的論理バグの自動検出

医療グラフRAG：グラフ検索拡張生成による安全な医療大規模言語モデルへの道

Puppeteer：3Dモデルのラギングおよびアニメーション化

STream3R：因果トランスフォーマーを用いたスケーラブルな順次3次元再構成

序章：長文脈にわたる全体的理解と推論を要するベンチマーク

ToonComposer：生成後キーふりによるアニメ制作の効率化

NextStep-1：スケールにおける連続トークンを用いた自己回帰型画像生成へ

We-Math 2.0：視覚的数学的推論を促進するための汎用数学書システム

COREVQA：クラウド観察と推論包含を備えた視覚質問応答ベンチマーク

RelayFormer：スケーラブルな画像および動画操作の局所的・包括的注意力枠組み

GMF-Drive：空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転

見る、聞く、覚える、推論する：長期記憶を備えたマルチモーダルエージェント

拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる

AWorld：安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決

Story2Board：表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ

スタンドイン：動画生成のための軽量かつ即時接続型アイデンティティ制御

Mol-R1：分子発見における明示的長期CoT推論への挑戦

Llama-Nemotron：効率的な推論モデル

ドキュメントヘイストック：長文脈マルチモーダル画像／ドキュメント理解を対象としたビジョンLLMベンチマーク

Echo-4o：GPT-4oによる合成画像の力を活用した画像生成の向上

ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色

VisCodex：視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成

XQuant：KVキャッシュの再生成によるLLM推論におけるメモリ壁の突破

BeyondWeb：1兆スケールの事前学習における合成データのスケーリングから得た教訓

PaperRegister：階層的レジスタインデックスを活用した柔軟な粒度の論文検索の向上

DINOv3

SSRL：自己探索強化学習

タイム：画像を超えて考える

文化的知識を用いた多言語多モーダル大規模言語モデルの接地

HiFiTTS-2：大規模高帯域音声データセット

CryptoScope：大規模言語モデルを活用した暗号論的論理バグの自動検出

医療グラフRAG：グラフ検索拡張生成による安全な医療大規模言語モデルへの道

Puppeteer：3Dモデルのラギングおよびアニメーション化

STream3R：因果トランスフォーマーを用いたスケーラブルな順次3次元再構成

序章：長文脈にわたる全体的理解と推論を要するベンチマーク

ToonComposer：生成後キーふりによるアニメ制作の効率化

NextStep-1：スケールにおける連続トークンを用いた自己回帰型画像生成へ

We-Math 2.0：視覚的数学的推論を促進するための汎用数学書システム

COREVQA：クラウド観察と推論包含を備えた視覚質問応答ベンチマーク

RelayFormer：スケーラブルな画像および動画操作の局所的・包括的注意力枠組み

GMF-Drive：空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転

見る、聞く、覚える、推論する：長期記憶を備えたマルチモーダルエージェント

拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる

AWorld：安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決

Story2Board：表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ

スタンドイン：動画生成のための軽量かつ即時接続型アイデンティティ制御

Mol-R1：分子発見における明示的長期CoT推論への挑戦

Llama-Nemotron：効率的な推論モデル

ドキュメントヘイストック：長文脈マルチモーダル画像／ドキュメント理解を対象としたビジョンLLMベンチマーク

Echo-4o：GPT-4oによる合成画像の力を活用した画像生成の向上

ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色

VisCodex：視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成