HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
テキストを参照:トークン化から視覚的読解へ
マルチモーダル
OCR
Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.
方向性推論注入によるMLLMのファインチューニング
視覚質問応答
Any-to-Any
Chao Huang, Zeliang Zhang, Jiang Liu, et al.
言語モデルは単射であり、したがって可逆である
Transformer
自然言語処理
Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.
フリートランスフォーマー
Transformer
Any-to-Any
François Fleuret
機械学習を用いた量子処理ユニット(QPU)処理時間の予測
機械学習
モデル学習
Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.
量子エルゴード性の端における建設的干渉の観測
サイエンスのためのAI
モデリング
Google Quantum AI and Collaborators
VideoAgentTrek:ラベルなし動画からのコンピュータ利用事前学習
行動認識
人間-コンピュータインタラクション
Dunjie Lu, Yiheng Xu, Junli Wang, et al.
GigaBrain-0:世界モデル駆動型の視覚言語行動モデル
エムボディドインテリジェンス
ロボティクス
GigaBrain Team, Angen Ye, Boyuan Wang, et al.
LoongRL:長文脈における高度な推論のための強化学習
LLM
Reasoning
Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.
BAPO:適応的クリッピングを用いたバランスの取れた方策最適化によるLLM向けオフポリシー強化学習の安定化
強化学習
LLM
Zhiheng Xi, Xin Guo, Yang Nan, et al.
すべての注目は重要である:長文脈推論のための効率的なハイブリッドアーキテクチャ
Transformer
モデル学習
Ling Team, Bin Han, Caizhi Tang, et al.
色を正しく表現する:知覚色空間とテキスト埋め込みを橋渡しすることで、拡散生成を改善する
画像修復
拡散モデル
Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, et al.
エゴセントリックなマルチビュー場面における視覚言語モデルを用いた空間推論
視覚質問応答
マルチモーダル
Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.
LoFT:開広世界シナリオにおける長尾半教師付き学習のためのパラメータ効率の良い微調整
監視付き微調整
画像認識
Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.
FLOWER:効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化
LLM
Any-to-Any
Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.
拡散大規模言語モデルに対するインペイント誘導型ポリシー最適化
強化学習
拡散モデル
Siyan Zhao, Mengchen Liu, Jing Huang, et al.
MCP-AgentBench:MCPを介したツールを用いた現実世界の言語エージェント性能の評価
ベンチマーク
エージェント
Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.
拡散モデルにおけるキャッシュ手法に関するサーベイ:効率的なマルチモーダル生成に向けて
拡散モデル
マルチモーダル
Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.
ドライビング・ワールドモデルを再考する:認識タスクのための合成データ生成機として
動画生成
自動運転
Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.
空間変動型オートフォーカス
深度推定
コンピュータビジョン
Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole
アンサンブルの適切なタイミング:安定的かつ高速なLLMアンサンブルのためのトークンレベルのポイントの特定
LLM
Transformer
Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.
汎用的な検索拡張型生成のためのミックスモーダル検索へ向けて
検索拡張生成
マルチモーダル
Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.
FineVision:オープンデータはすべてが必要です
マルチモーダル
Any-to-Any
Luis Wiedmann, Orr Zohar, Amir Mahla, et al.
グリフ:視覚・テキスト圧縮によるコンテキスト窓のスケーリング
視覚質問応答
ドキュメント理解
Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.
PICABench:物理的に現実的な画像編集はどの程度達成されているか?
画像修復
画像間変換
Yuandong Pu, Le Zhuo, Songhao Han, et al.
DeepAnalyze:自律型データサイエンスのためのエージェント型大規模言語モデル
LLM
エージェント
Shaolei Zhang, Ju Fan, Meihao Fan, et al.
自己注意機構を用いた演算子学習に基づく3D-IC熱シミュレーション
サイエンスのためのAI
Transformer
Zhen Huang, Hong Wang, Wenkai Yang, et al.
Earth AI:基盤モデルとクロスモーダル推論による地理空間インサイトの解明
マルチモーダル
Reasoning
Aaron Bell, Amit Aides, Amr Helmy, et al.
統計的視点から再考する多言語ギャップ
LLM
自然言語処理
Vihari Piratla, Purvam Jain, Darshan Singh, et al.
構造化コンポーネントベースの報酬メカニズムを用いた科学的推論による生物実験プロトコル生成の実現
Reasoning
LLM
Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.
Skyfall-GS:衛星画像から没入型3D都市景観の合成
3D生成
拡散モデル
Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.
文脈学習による顕在化する不整合:限られた文脈例は広範な不整合を引き起こす大規模言語モデルを生成する
LLM
Reasoning
Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.
1
18
19
20
21
22
23
24
47
テキストを参照:トークン化から視覚的読解へ
マルチモーダル
OCR
Ling Xing, Alex Jinpeng Wang, Rui Yan, et al.
方向性推論注入によるMLLMのファインチューニング
視覚質問応答
Any-to-Any
Chao Huang, Zeliang Zhang, Jiang Liu, et al.
言語モデルは単射であり、したがって可逆である
Transformer
自然言語処理
Giorgos Nikolaou, Tommaso Mencattini, Donato Crisostomi, et al.
フリートランスフォーマー
Transformer
Any-to-Any
François Fleuret
機械学習を用いた量子処理ユニット(QPU)処理時間の予測
機械学習
モデル学習
Lucy Xing, Sanjay Vishwakarma, David Kremer, et al.
量子エルゴード性の端における建設的干渉の観測
サイエンスのためのAI
モデリング
Google Quantum AI and Collaborators
VideoAgentTrek:ラベルなし動画からのコンピュータ利用事前学習
行動認識
人間-コンピュータインタラクション
Dunjie Lu, Yiheng Xu, Junli Wang, et al.
GigaBrain-0:世界モデル駆動型の視覚言語行動モデル
エムボディドインテリジェンス
ロボティクス
GigaBrain Team, Angen Ye, Boyuan Wang, et al.
LoongRL:長文脈における高度な推論のための強化学習
LLM
Reasoning
Siyuan Wang, Gaokai Zhang, Li Lyna Zhang, et al.
BAPO:適応的クリッピングを用いたバランスの取れた方策最適化によるLLM向けオフポリシー強化学習の安定化
強化学習
LLM
Zhiheng Xi, Xin Guo, Yang Nan, et al.
すべての注目は重要である:長文脈推論のための効率的なハイブリッドアーキテクチャ
Transformer
モデル学習
Ling Team, Bin Han, Caizhi Tang, et al.
色を正しく表現する:知覚色空間とテキスト埋め込みを橋渡しすることで、拡散生成を改善する
画像修復
拡散モデル
Sung-Lin Tsai, Bo-Lun Huang, Yu Ting Shen, et al.
エゴセントリックなマルチビュー場面における視覚言語モデルを用いた空間推論
視覚質問応答
マルチモーダル
Mohsen Gholami, Ahmad Rezaei, Zhou Weimin, et al.
LoFT:開広世界シナリオにおける長尾半教師付き学習のためのパラメータ効率の良い微調整
監視付き微調整
画像認識
Jiahao Chen, Zhiyuan Huang, Yurou Liu, et al.
FLOWER:効率的な視覚-言語-行動フロー方策による汎用ロボット方策の民主化
LLM
Any-to-Any
Moritz Reuss, Hongyi Zhou, Marcel Rühle, et al.
拡散大規模言語モデルに対するインペイント誘導型ポリシー最適化
強化学習
拡散モデル
Siyan Zhao, Mengchen Liu, Jing Huang, et al.
MCP-AgentBench:MCPを介したツールを用いた現実世界の言語エージェント性能の評価
ベンチマーク
エージェント
Zikang Guo, Benfeng Xu, Chiwei Zhu, et al.
拡散モデルにおけるキャッシュ手法に関するサーベイ:効率的なマルチモーダル生成に向けて
拡散モデル
マルチモーダル
Jiacheng Liu, Xinyu Wang, Yuqi Lin, et al.
ドライビング・ワールドモデルを再考する:認識タスクのための合成データ生成機として
動画生成
自動運転
Kai Zeng, Zhanqian Wu, Kaixin Xiong, et al.
空間変動型オートフォーカス
深度推定
コンピュータビジョン
Yingsi Qin, Aswin C. Sankaranarayanan, Matthew O'Toole
アンサンブルの適切なタイミング:安定的かつ高速なLLMアンサンブルのためのトークンレベルのポイントの特定
LLM
Transformer
Heecheol Yun, Kwangmin Ki, Junghyun Lee, et al.
汎用的な検索拡張型生成のためのミックスモーダル検索へ向けて
検索拡張生成
マルチモーダル
Chenghao Zhang, Guanting Dong, Xinyu Yang, et al.
FineVision:オープンデータはすべてが必要です
マルチモーダル
Any-to-Any
Luis Wiedmann, Orr Zohar, Amir Mahla, et al.
グリフ:視覚・テキスト圧縮によるコンテキスト窓のスケーリング
視覚質問応答
ドキュメント理解
Jiale Cheng, Yusen Liu, Xinyu Zhang, et al.
PICABench:物理的に現実的な画像編集はどの程度達成されているか?
画像修復
画像間変換
Yuandong Pu, Le Zhuo, Songhao Han, et al.
DeepAnalyze:自律型データサイエンスのためのエージェント型大規模言語モデル
LLM
エージェント
Shaolei Zhang, Ju Fan, Meihao Fan, et al.
自己注意機構を用いた演算子学習に基づく3D-IC熱シミュレーション
サイエンスのためのAI
Transformer
Zhen Huang, Hong Wang, Wenkai Yang, et al.
Earth AI:基盤モデルとクロスモーダル推論による地理空間インサイトの解明
マルチモーダル
Reasoning
Aaron Bell, Amit Aides, Amr Helmy, et al.
統計的視点から再考する多言語ギャップ
LLM
自然言語処理
Vihari Piratla, Purvam Jain, Darshan Singh, et al.
構造化コンポーネントベースの報酬メカニズムを用いた科学的推論による生物実験プロトコル生成の実現
Reasoning
LLM
Haoran Sun, Yankai Jiang, Zhenyu Tang, et al.
Skyfall-GS:衛星画像から没入型3D都市景観の合成
3D生成
拡散モデル
Jie-Ying Lee, Yi-Ruei Liu, Shr-Ruei Tsai, et al.
文脈学習による顕在化する不整合:限られた文脈例は広範な不整合を引き起こす大規模言語モデルを生成する
LLM
Reasoning
Nikita Afonin, Nikita Andriyanov, Nikhil Bageshpura, et al.
1
18
19
20
21
22
23
24
47