HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
ビジョン・ディープリサーチ:マルチモーダル大規模言語モデルにおけるディープリサーチ能力の促進
検索拡張生成
視覚質問応答
Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.
Kimi K2.5:視覚的エージェント知能
マルチモーダル
マルチモーダル表現
Kimi Team, Tongtong Bai, Yifan Bai, et al.
Green-VLA:汎用ロボット向けの段階的ビジュアル・言語・アクションモデル
マルチモーダル
Any-to-Any
I. Apanasevich, M. Artemyev, R. Babakyan, et al.
PaperBanana:AI研究者のための学術図解の自動化
テキストから画像生成
サイエンスのためのAI
Dawei Zhu, Rui Meng, Yale Song, et al.
Geminiを用いた準自律的数学発見:Erdős問題に関する事例研究
サイエンスのためのAI
数学
Tony Feng, Trieu Trinh, Garrett Bingham, et al.
潜在チェーン・オブ・シンキングを計画として:推論と言語化を分離する
LLM
Reasoning
Jiecong Wang, Hao Peng, Chunyang Liu
リアルタイム対応型の意味論を超える報酬モデル
強化学習
LLM
Zixuan Huang, Xin Xia, Yuxi Ren, et al.
DenseGRPO:フローマッチングモデルの整合性向上のためのスパースからディンスな報酬へ
拡散モデル
監視付き微調整
Haoyou Deng, Keyu Yan, Chaojie Mao, et al.
DreamActor-M2:時空間的コントキスト学習を用いたユニバーサルなキャラクター画像アニメーション
動画生成
画像から動画生成
Mingshuang Luo, Shuang Liang, Zhengkun Rong, et al.
TTCS:自己進化型におけるテスト時カリキュラム合成
LLM
Reasoning
Chengyi Yang, Zhishang Xiang, Yunbo Tang, et al.
ASTRA:エージェント軌道および強化学習アリーナの自動合成
強化学習
LLM
Xiaoyu Tian, Haotian Wang, Shuaiting Chen, et al.
自己蒸留による継続的学習の実現
強化学習
監視付き微調整
Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.
実行を基盤とする自動AI研究
LLM
アルゴリズム
Chenglei Si, Zitong Yang, Yejin Choi, et al.
DynamicVLA:動的物体操作を実現する視覚言語行動モデル
ロボティクス
エムボディドインテリジェンス
Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.
MMFineReason:オープンデータ中心主義的手法によるマルチモーダル推論ギャップの解消
Reasoning
データセット
Honglin Lin, Zheng Liu, Yun Zhu, et al.
OCRVerse:エンドツーエンド視覚言語モデルにおける包括的なOCRへの道標
OCR
ドキュメント理解
Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.
埋め込みのスケーリングは、言語モデルにおけるエキスパートのスケーリングを上回る
検索拡張生成
Transformer
Hong Liu, Jiaqi Zhang, Chao Wang, et al.
Idea2Story:研究コンセプトを完全な科学的物語に変換する自動化パイプライン
エージェント
LLM
Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.
すべてのものがその適切な場所にある:テキストから画像モデルの空間的知能をベンチマークする
テキストから画像生成
拡散モデル
Zengbin Wang, Xuecai Hu, Yong Wang, et al.
Qwen3-ASR 技術報告
音声および音声処理
LLM
Xian Shi, Xiong Wang, Zhifang Guo, et al.
インサイトエージェント:データインサイトを実現するLLMベースのマルチエージェントシステム
エージェント
インテリジェントな質問応答
Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.
ピクセルレベルのVLM Perception を実現するためのシンプルなポイント予測
画像分割
マルチモーダル表現
Tianhui Song, Haoyu Lu, Hao Yang, et al.
Youtu-VL:統一された視覚言語監督による視覚的潜在能力の解放
マルチモーダル表現
Any-to-Any
Zhixiang Wei, Yi Li, Zhehan Kan, et al.
Innovator-VL:科学発見を目的としたマルチモーダル大規模言語モデル
マルチモーダル表現
インテリジェントな質問応答
Zichen Wen, Boxue Yang, Shuang Chen, et al.
オープンソース・ワールドモデルの進展
動画生成
オープンソース
Robbyant Team, Zelin Gao, Qiuyu Wang, et al.
難易度認識型GRPOと多面的質問再構成を活用した数学的推論の向上
強化学習
Reasoning
Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.
ショートウィンドウアテンションにより長期記憶が可能となる
Transformer
モデル学習
Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.
World Craft:テキストによる可視化可能な世界を創出するエージェントフレームワーク
エージェント
3D生成
Jianwen Sun, Yukang Feng, Kaining Ying, et al.
視覚生成がマルチモーダル・ワールド・モデルを通じて人間のような推論を解き放つ
マルチモーダル
Reasoning
Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.
マスク深度モデリングによる空間認識
深度推定
認識
Bin Tan, Changjiang Sun, Xiage Qin, et al.
実用的なVLA基盤モデル
ロボティクス
エムボディドインテリジェンス
Wei Wu, Fan Lu, Yunnan Wang, et al.
AdaReasoner:反復的視覚推論のための動的ツールオーケストレーション
Reasoning
LLM
Mingyang Song, Haoyu Sun, Jiawei Gu, et al.
1
2
3
4
5
48
ビジョン・ディープリサーチ:マルチモーダル大規模言語モデルにおけるディープリサーチ能力の促進
検索拡張生成
視覚質問応答
Wenxuan Huang, Yu Zeng, Qiuchen Wang, et al.
Kimi K2.5:視覚的エージェント知能
マルチモーダル
マルチモーダル表現
Kimi Team, Tongtong Bai, Yifan Bai, et al.
Green-VLA:汎用ロボット向けの段階的ビジュアル・言語・アクションモデル
マルチモーダル
Any-to-Any
I. Apanasevich, M. Artemyev, R. Babakyan, et al.
PaperBanana:AI研究者のための学術図解の自動化
テキストから画像生成
サイエンスのためのAI
Dawei Zhu, Rui Meng, Yale Song, et al.
Geminiを用いた準自律的数学発見:Erdős問題に関する事例研究
サイエンスのためのAI
数学
Tony Feng, Trieu Trinh, Garrett Bingham, et al.
潜在チェーン・オブ・シンキングを計画として:推論と言語化を分離する
LLM
Reasoning
Jiecong Wang, Hao Peng, Chunyang Liu
リアルタイム対応型の意味論を超える報酬モデル
強化学習
LLM
Zixuan Huang, Xin Xia, Yuxi Ren, et al.
DenseGRPO:フローマッチングモデルの整合性向上のためのスパースからディンスな報酬へ
拡散モデル
監視付き微調整
Haoyou Deng, Keyu Yan, Chaojie Mao, et al.
DreamActor-M2:時空間的コントキスト学習を用いたユニバーサルなキャラクター画像アニメーション
動画生成
画像から動画生成
Mingshuang Luo, Shuang Liang, Zhengkun Rong, et al.
TTCS:自己進化型におけるテスト時カリキュラム合成
LLM
Reasoning
Chengyi Yang, Zhishang Xiang, Yunbo Tang, et al.
ASTRA:エージェント軌道および強化学習アリーナの自動合成
強化学習
LLM
Xiaoyu Tian, Haotian Wang, Shuaiting Chen, et al.
自己蒸留による継続的学習の実現
強化学習
監視付き微調整
Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.
実行を基盤とする自動AI研究
LLM
アルゴリズム
Chenglei Si, Zitong Yang, Yejin Choi, et al.
DynamicVLA:動的物体操作を実現する視覚言語行動モデル
ロボティクス
エムボディドインテリジェンス
Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.
MMFineReason:オープンデータ中心主義的手法によるマルチモーダル推論ギャップの解消
Reasoning
データセット
Honglin Lin, Zheng Liu, Yun Zhu, et al.
OCRVerse:エンドツーエンド視覚言語モデルにおける包括的なOCRへの道標
OCR
ドキュメント理解
Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.
埋め込みのスケーリングは、言語モデルにおけるエキスパートのスケーリングを上回る
検索拡張生成
Transformer
Hong Liu, Jiaqi Zhang, Chao Wang, et al.
Idea2Story:研究コンセプトを完全な科学的物語に変換する自動化パイプライン
エージェント
LLM
Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.
すべてのものがその適切な場所にある:テキストから画像モデルの空間的知能をベンチマークする
テキストから画像生成
拡散モデル
Zengbin Wang, Xuecai Hu, Yong Wang, et al.
Qwen3-ASR 技術報告
音声および音声処理
LLM
Xian Shi, Xiong Wang, Zhifang Guo, et al.
インサイトエージェント:データインサイトを実現するLLMベースのマルチエージェントシステム
エージェント
インテリジェントな質問応答
Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.
ピクセルレベルのVLM Perception を実現するためのシンプルなポイント予測
画像分割
マルチモーダル表現
Tianhui Song, Haoyu Lu, Hao Yang, et al.
Youtu-VL:統一された視覚言語監督による視覚的潜在能力の解放
マルチモーダル表現
Any-to-Any
Zhixiang Wei, Yi Li, Zhehan Kan, et al.
Innovator-VL:科学発見を目的としたマルチモーダル大規模言語モデル
マルチモーダル表現
インテリジェントな質問応答
Zichen Wen, Boxue Yang, Shuang Chen, et al.
オープンソース・ワールドモデルの進展
動画生成
オープンソース
Robbyant Team, Zelin Gao, Qiuyu Wang, et al.
難易度認識型GRPOと多面的質問再構成を活用した数学的推論の向上
強化学習
Reasoning
Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.
ショートウィンドウアテンションにより長期記憶が可能となる
Transformer
モデル学習
Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.
World Craft:テキストによる可視化可能な世界を創出するエージェントフレームワーク
エージェント
3D生成
Jianwen Sun, Yukang Feng, Kaining Ying, et al.
視覚生成がマルチモーダル・ワールド・モデルを通じて人間のような推論を解き放つ
マルチモーダル
Reasoning
Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.
マスク深度モデリングによる空間認識
深度推定
認識
Bin Tan, Changjiang Sun, Xiage Qin, et al.
実用的なVLA基盤モデル
ロボティクス
エムボディドインテリジェンス
Wei Wu, Fan Lu, Yunnan Wang, et al.
AdaReasoner:反復的視覚推論のための動的ツールオーケストレーション
Reasoning
LLM
Mingyang Song, Haoyu Sun, Jiawei Gu, et al.
1
2
3
4
5
48