HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

データによるプログラミング：生データコーパスから自己進化型大規模言語モデルのためのテスト駆動型データエンジニアリング

データによるプログラミング：生データコーパスから自己進化型大規模言語モデルのためのテスト駆動型データエンジニアリング

監視付き微調整

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

再帰型マルチエージェントシステム

再帰型マルチエージェントシステム

エージェント

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

エージェント型AIに対するスキル検索拡張

検索拡張生成

エージェント

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM：ビジョン言語モデルは思考を説明するために画像を注釈付けし、ユーザーをガイドすることができます。

視覚質問応答

マルチモーダル

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: 検索拡張ベスト・オブ・N 順位付けによって構築されたリモートセンシング地域変化理解ベンチマーク

視覚質問応答

検索拡張生成

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: 長尺音声における文字起こし、翻訳、理解のためのスケーラブルなベンチマーク

音声および音声処理

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: 複数ターン・複数日間にわたるマルチモーダルcoworker agents向けのライブワールドベンチマーク

エージェント

ベンチマーク

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: ピクセル埋め込みは、マルチモーダルな理解と生成においてビジョンエンコーダを上回る
（訳注：学術文脈における「beat」は、パフォーマンス比較の文脈において「～を上回る」「凌駕する」等の表現で訳すのが一般的ですが、タイトルとして簡潔に「勝る」「凌ぐ」の意味を込めて「上回る」としました。また、技術用語「Pixel Embeddings」は「ピクセル埋め込み」、「Vision Encoders」は「ビジョンエンコーダ」と訳しています。）

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

ビジョン・言語・アクションの安全性：脅威、課題、評価、そしてメカニズム

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI：VLMの3D推論能力を正確に評価するための視覚的空間知能評価の再構築

視覚質問応答

ビデオ理解

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

スキルから人材へ：現実の企業として異質なエージェントを組織化する

エージェント

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: テキストから動画生成に対する3次元制約の強化

テキストから動画

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

意味論的進行関数を用いたビデオ解析および生成

ビデオ処理

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: 自動写真画像編集のための統合的な推論・生成・最適化フレームワーク

画像間変換

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

コンテキストは常に不十分である：長大な文書集合に対するスケーラブルな質問応答のための構造化推論

インテリジェントな質問応答

ドキュメント理解

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: 実世界のAI agent検索におけるベンチマーク

エージェント

ベンチマーク

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

FlowAnchor: Inversion-freeなビデオ編集に向けた編集信号の安定化

Ze Chen, Lan Chen, Yuanhang Li, et al.

内部表現を用いたLLMの安全性確保：有害コンテンツの検出

ディープラーニング

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: 疎な視点からの3D断層再構成に向けた拡散モデルによるニューラル表現最適化の強化

拡散モデル

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling：基盤、能力、法則、そしてその先へ

エージェント

サイエンスのためのAI

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

強靭な分散型事前学習のためのDecoupled DiLoCo

モデル学習

Decoupled DiLoCo Team

EVENT TENSOR: 動的MEGAKERNELをコンパイルするための統一的抽象化

AI コンパイラ

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

速い動きと遅い動きの認識：ビデオにおける時間の流れの学習

ビデオ理解

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

長期的タスクに向けたLLMの意思決定とSkill Bank agentの共進化

エージェント

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID：スタイルに依存しない顔識別のための、知覚を考慮したデータセットおよび指標

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT：人間からヒューマノイドへのpolicy学習および世界モデリングに向けた統一的物理言語の構築

マルチモーダル表現

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark：インタラクティブなビデオ・ワールドモデルのための統一ベンチマークスイート

画像から動画生成

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA：視覚的知覚から意味論に至る、難易度層別化された時系列推論に向けて

マルチモーダル

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

画像生成器は汎用的なビジョン学習器である

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: モダリティを離散的なtokenとして語彙化する

マルチモーダル表現

Meituan LongCat Team

FIPO: Future-KLの影響を受けた方策最適化による深い推論の導出

Qwen Pilot Team

強化学習におけるグループレベルの自然言語フィードバックを用いたBootstrapping型探索

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

データによるプログラミング：生データコーパスから自己進化型大規模言語モデルのためのテスト駆動型データエンジニアリング

データによるプログラミング：生データコーパスから自己進化型大規模言語モデルのためのテスト駆動型データエンジニアリング

監視付き微調整

Chenkai Pan, Xinglong Xu, Yuhang Xu, et al.

再帰型マルチエージェントシステム

再帰型マルチエージェントシステム

エージェント

Xiyuan Yang, Jiaru Zou, Rui Pan, et al.

エージェント型AIに対するスキル検索拡張

検索拡張生成

エージェント

Weihang Su, Jianming Long, Qingyao Ai, et al.

SketchVLM：ビジョン言語モデルは思考を説明するために画像を注釈付けし、ユーザーをガイドすることができます。

視覚質問応答

マルチモーダル

Brandon Collins, Logan Bolton, Hung Huy Nguyen, et al.

RSRCC: 検索拡張ベスト・オブ・N 順位付けによって構築されたリモートセンシング地域変化理解ベンチマーク

視覚質問応答

検索拡張生成

Roie Kazoom, Yotam Gigi, George Leifman, et al.

LongSpeech: 長尺音声における文字起こし、翻訳、理解のためのスケーラブルなベンチマーク

音声および音声処理

Fei Yang, Xuanfan Ni, Renyi Yang, et al.

ClawMark: 複数ターン・複数日間にわたるマルチモーダルcoworker agents向けのライブワールドベンチマーク

エージェント

ベンチマーク

Fanqing Meng, Lingxiao Du, Zijian Wu, et al.

Tuna-2: ピクセル埋め込みは、マルチモーダルな理解と生成においてビジョンエンコーダを上回る
（訳注：学術文脈における「beat」は、パフォーマンス比較の文脈において「～を上回る」「凌駕する」等の表現で訳すのが一般的ですが、タイトルとして簡潔に「勝る」「凌ぐ」の意味を込めて「上回る」としました。また、技術用語「Pixel Embeddings」は「ピクセル埋め込み」、「Vision Encoders」は「ビジョンエンコーダ」と訳しています。）

Zhiheng Liu, Weiming Ren, Xiaoke Huang, et al.

ビジョン・言語・アクションの安全性：脅威、課題、評価、そしてメカニズム

Qi Li, Bo Yin, Weiqi Huang, et al.

ReVSI：VLMの3D推論能力を正確に評価するための視覚的空間知能評価の再構築

視覚質問応答

ビデオ理解

Yiming Zhang, Jiacheng Chen, Jiaqi Tan, et al.

スキルから人材へ：現実の企業として異質なエージェントを組織化する

エージェント

Zhengxu Yu, Yu Fu, Zhiyuan He, et al.

World-R1: テキストから動画生成に対する3次元制約の強化

テキストから動画

Weijie Wang, Xiaoxuan He, Youping Gu, et al.

意味論的進行関数を用いたビデオ解析および生成

ビデオ処理

Gal Metzer, Sagi Polaczek, Ali Mahdavi-Amiri, et al.

SmartPhotoCrafter: 自動写真画像編集のための統合的な推論・生成・最適化フレームワーク

画像間変換

Ying Zeng, Miaosen Luo, Guangyuan Li, et al.

コンテキストは常に不十分である：長大な文書集合に対するスケーラブルな質問応答のための構造化推論

インテリジェントな質問応答

ドキュメント理解

Harshit Joshi, Priyank Shethia, Jadelynn Dao, et al.

AgentSearchBench: 実世界のAI agent検索におけるベンチマーク

エージェント

ベンチマーク

Bin Wu, Arastun Mammadli, Xiaoyu Zhang, et al.

FlowAnchor: Inversion-freeなビデオ編集に向けた編集信号の安定化

Ze Chen, Lan Chen, Yuanhang Li, et al.

内部表現を用いたLLMの安全性確保：有害コンテンツの検出

ディープラーニング

Difan Jiao, Yilun Liu, Ye Yuan, et al.

DiffNR: 疎な視点からの3D断層再構成に向けた拡散モデルによるニューラル表現最適化の強化

拡散モデル

Shiyan Su, Ruyi Zha, Danli Shi, et al.

Agentic World Modeling：基盤、能力、法則、そしてその先へ

エージェント

サイエンスのためのAI

Meng Chu, Xuan Billy Zhang, Kevin Qinghong Lin, et al.

強靭な分散型事前学習のためのDecoupled DiLoCo

モデル学習

Decoupled DiLoCo Team

EVENT TENSOR: 動的MEGAKERNELをコンパイルするための統一的抽象化

AI コンパイラ

Hongyi Jin, Bohan Hou, Guanjie Wang, et al.

速い動きと遅い動きの認識：ビデオにおける時間の流れの学習

ビデオ理解

Yen-Siang Wu, Rundong Luo, Jingsen Zhu, et al.

長期的タスクに向けたLLMの意思決定とSkill Bank agentの共進化

エージェント

Xiyang Wu, Zongxia Li, Guangyao Shi, et al.

StyleID：スタイルに依存しない顔識別のための、知覚を考慮したデータセットおよび指標

Kwan Yun, Changmin Lee, Ayeong Jeong, et al.

UniT：人間からヒューマノイドへのpolicy学習および世界モデリングに向けた統一的物理言語の構築

マルチモーダル表現

Boyu Chen, Yi Chen, Lu Qiu, et al.

WorldMark：インタラクティブなビデオ・ワールドモデルのための統一ベンチマークスイート

画像から動画生成

Xiaojie Xu, Zhengyuan Lin, Kang He, et al.

LLaTiSA：視覚的知覚から意味論に至る、難易度層別化された時系列推論に向けて

マルチモーダル

Yueyang Ding, HaoPeng Zhang, Rui Dai, et al.

画像生成器は汎用的なビジョン学習器である

Valentin Gabeur, Shangbang Long, Songyou Peng, et al.

LongCat-Next: モダリティを離散的なtokenとして語彙化する

マルチモーダル表現

Meituan LongCat Team

FIPO: Future-KLの影響を受けた方策最適化による深い推論の導出

Qwen Pilot Team

強化学習におけるグループレベルの自然言語フィードバックを用いたBootstrapping型探索

Lei Huang, Xiang Cheng, Chenxiao Zhao, et al.

エージェント型AIに対するスキル検索拡張

SketchVLM：ビジョン言語モデルは思考を説明するために画像を注釈付けし、ユーザーをガイドすることができます。

RSRCC: 検索拡張ベスト・オブ・N 順位付けによって構築されたリモートセンシング地域変化理解ベンチマーク

LongSpeech: 長尺音声における文字起こし、翻訳、理解のためのスケーラブルなベンチマーク

ClawMark: 複数ターン・複数日間にわたるマルチモーダルcoworker agents向けのライブワールドベンチマーク

Tuna-2: ピクセル埋め込みは、マルチモーダルな理解と生成においてビジョンエンコーダを上回る（訳注：学術文脈における「beat」は、パフォーマンス比較の文脈において「～を上回る」「凌駕する」等の表現で訳すのが一般的ですが、タイトルとして簡潔に「勝る」「凌ぐ」の意味を込めて「上回る」としました。また、技術用語「Pixel Embeddings」は「ピクセル埋め込み」、「Vision Encoders」は「ビジョンエンコーダ」と訳しています。）

ビジョン・言語・アクションの安全性：脅威、課題、評価、そしてメカニズム

ReVSI：VLMの3D推論能力を正確に評価するための視覚的空間知能評価の再構築

スキルから人材へ：現実の企業として異質なエージェントを組織化する

World-R1: テキストから動画生成に対する3次元制約の強化

意味論的進行関数を用いたビデオ解析および生成

SmartPhotoCrafter: 自動写真画像編集のための統合的な推論・生成・最適化フレームワーク

コンテキストは常に不十分である：長大な文書集合に対するスケーラブルな質問応答のための構造化推論

AgentSearchBench: 実世界のAI agent検索におけるベンチマーク

FlowAnchor: Inversion-freeなビデオ編集に向けた編集信号の安定化

内部表現を用いたLLMの安全性確保：有害コンテンツの検出

DiffNR: 疎な視点からの3D断層再構成に向けた拡散モデルによるニューラル表現最適化の強化

Agentic World Modeling：基盤、能力、法則、そしてその先へ

強靭な分散型事前学習のためのDecoupled DiLoCo

EVENT TENSOR: 動的MEGAKERNELをコンパイルするための統一的抽象化

速い動きと遅い動きの認識：ビデオにおける時間の流れの学習

長期的タスクに向けたLLMの意思決定とSkill Bank agentの共進化

StyleID：スタイルに依存しない顔識別のための、知覚を考慮したデータセットおよび指標

UniT：人間からヒューマノイドへのpolicy学習および世界モデリングに向けた統一的物理言語の構築

WorldMark：インタラクティブなビデオ・ワールドモデルのための統一ベンチマークスイート

LLaTiSA：視覚的知覚から意味論に至る、難易度層別化された時系列推論に向けて

画像生成器は汎用的なビジョン学習器である

LongCat-Next: モダリティを離散的なtokenとして語彙化する

FIPO: Future-KLの影響を受けた方策最適化による深い推論の導出

強化学習におけるグループレベルの自然言語フィードバックを用いたBootstrapping型探索

エージェント型AIに対するスキル検索拡張

SketchVLM：ビジョン言語モデルは思考を説明するために画像を注釈付けし、ユーザーをガイドすることができます。

RSRCC: 検索拡張ベスト・オブ・N 順位付けによって構築されたリモートセンシング地域変化理解ベンチマーク

LongSpeech: 長尺音声における文字起こし、翻訳、理解のためのスケーラブルなベンチマーク

ClawMark: 複数ターン・複数日間にわたるマルチモーダルcoworker agents向けのライブワールドベンチマーク

Tuna-2: ピクセル埋め込みは、マルチモーダルな理解と生成においてビジョンエンコーダを上回る（訳注：学術文脈における「beat」は、パフォーマンス比較の文脈において「～を上回る」「凌駕する」等の表現で訳すのが一般的ですが、タイトルとして簡潔に「勝る」「凌ぐ」の意味を込めて「上回る」としました。また、技術用語「Pixel Embeddings」は「ピクセル埋め込み」、「Vision Encoders」は「ビジョンエンコーダ」と訳しています。）

ビジョン・言語・アクションの安全性：脅威、課題、評価、そしてメカニズム

ReVSI：VLMの3D推論能力を正確に評価するための視覚的空間知能評価の再構築

スキルから人材へ：現実の企業として異質なエージェントを組織化する

World-R1: テキストから動画生成に対する3次元制約の強化

意味論的進行関数を用いたビデオ解析および生成

SmartPhotoCrafter: 自動写真画像編集のための統合的な推論・生成・最適化フレームワーク

コンテキストは常に不十分である：長大な文書集合に対するスケーラブルな質問応答のための構造化推論

AgentSearchBench: 実世界のAI agent検索におけるベンチマーク

FlowAnchor: Inversion-freeなビデオ編集に向けた編集信号の安定化

内部表現を用いたLLMの安全性確保：有害コンテンツの検出

DiffNR: 疎な視点からの3D断層再構成に向けた拡散モデルによるニューラル表現最適化の強化

Agentic World Modeling：基盤、能力、法則、そしてその先へ

強靭な分散型事前学習のためのDecoupled DiLoCo

EVENT TENSOR: 動的MEGAKERNELをコンパイルするための統一的抽象化

速い動きと遅い動きの認識：ビデオにおける時間の流れの学習

長期的タスクに向けたLLMの意思決定とSkill Bank agentの共進化

StyleID：スタイルに依存しない顔識別のための、知覚を考慮したデータセットおよび指標

UniT：人間からヒューマノイドへのpolicy学習および世界モデリングに向けた統一的物理言語の構築

WorldMark：インタラクティブなビデオ・ワールドモデルのための統一ベンチマークスイート

LLaTiSA：視覚的知覚から意味論に至る、難易度層別化された時系列推論に向けて

画像生成器は汎用的なビジョン学習器である

LongCat-Next: モダリティを離散的なtokenとして語彙化する

FIPO: Future-KLの影響を受けた方策最適化による深い推論の導出

強化学習におけるグループレベルの自然言語フィードバックを用いたBootstrapping型探索