HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
MMR1:分散に配慮したサンプリングおよびオープンリソースを活用したマルチモーダル推論の向上
マルチモーダル
Reasoning
Sicong Leng, Jing Wang, Jiaxi Li, et al.
VCRL:大規模言語モデル向けの分散に基づくカリキュラム強化学習
強化学習
LLM
Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.
MultiEdit:多様で困難なタスクにおける指示に基づく画像編集の進展
画像間変換
マルチモーダル
Mingsong Li, Lin Liu, Hongjun Wang, et al.
BRISC:Swin-HAFNetを用いた脳腫瘍セグメンテーションおよび分類のためのアノテーション付きデータセット
セマンティックセグメンテーション
画像分類
Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.
EmoBench-M:マルチモーダル大規模言語モデルの感情知能のベンチマーク評価
感情認識
マルチモーダル
He Hu, Yucheng Zhou, Lianzhong You, et al.
FDABench:異種データ上の分析クエリ向けデータエージェントのベンチマーク
ベンチマーク
エージェント
Ziting Wang, Shize Zhang, Haitao Yuan, et al.
思考するより絵を描くほうが簡単:テキストから画像を生成するモデルは舞台を設定できるが、演出まではできないか?
テキストから画像生成
Reasoning
Ouxiang Li, Yuan Wang, Xinting Hu, et al.
UniVerse-1:エキスパートのステッチングによる統合型音声・映像生成
Any-to-Any
動画生成
Duomin Wang, Wei Zuo, Aojie Li, et al.
基礎モデルは段階的エムボディド推論においてどれほど優れているか?
エムボディドインテリジェンス
ベンチマーク
Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.
スパイキングブレイン技術報告書:スパイキングブレインをインスパイアした大規模モデル
LLM
Transformer
Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.
SAGE:意味理解のための現実的なベンチマーク
ベンチマーク
データセット
Samarth Goel, Reagan J. Lee, Kannan Ramchandran
WAVECLIP:適応的解像度CLIPのためのウェーブレットトークナイゼーション
Transformer
画像分類
Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.
EmbeddingGemma:強力で軽量なテキスト表現
LLM
Transformer
Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.
GRPOを用いた音声認識言語モデルにおける音声理解の進展
LLM
監視付き微調整
Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.
VLMが視覚空間的知能からどれほど離れているのか? ベンチマーク駆動型の視点から
ベンチマーク
マルチモーダル
Songsong Yu, Yuxin Chen, Hao Ju, et al.
SIM-CoT:教師付き暗黙的チェーン・オブ・シンキング
LLM
監視付き微調整
Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.
SWE-QA:言語モデルはリポジトリレベルのコード質問に答えられるか?
インテリジェントな質問応答
ベンチマーク
Weihan Peng, Yuling Shi, Yuhang Wang, et al.
動画モデルはゼロショット学習者かつ推論者である。
ビデオ理解
マルチモーダル
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.
機械工学解析問題の重要課題に対するN-Plus-1 GPTエージェンシー
LLM
モデリング
Anthony Patera, Rohan Abeyaratne
メモリQA:マルチモーダル記憶を基にしたリコール質問への回答
視覚質問応答
検索拡張生成
Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.
MAPO:ミックスドアドバンテージポリシー最適化
強化学習
Preference Modeling
Wenke Huang, Quan Zhang, Yiyang Fang, et al.
ハイパーバゲル:マルチモーダル理解および生成のための統合型高速化フレームワーク
Any-to-Any
拡散モデル
Yanzuo Lu, Xin Xia, Manlin Zhang, et al.
事前学習データにおける強化学習
強化学習
LLM
Siheng Li, Kejiao Li, Zenan Xu, et al.
視覚運動方策に本体感觉状態は必要か?
ロボティクス
エムボディドインテリジェンス
Juntu Zhao, Wenbo Lu, Di Zhang, et al.
Baseer:アラビア語文書からMarkdownへのOCR向け視覚言語モデル
OCR
LLM
Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.
GenExam:多分野テキスト-to-画像試験
テキストから画像生成
画像生成
Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.
Nav-R1:身体化されたシーンにおける推論とナビゲーション
エムボディドインテリジェンス
強化学習
Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.
MoEはあなたが思っているよりも強い:RoEによるハイパープアラレル推論スケーリング
LLM
Transformer
Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.
ARE:エージェント環境および評価のスケーリング
エージェント
ベンチマーク
Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.
DiffusionNFT:前方過程を用いたオンラインディフュージョン強化学習
拡散モデル
強化学習
Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.
TempSamp-R1:強化学習微調整を用いた効果的な時系列サンプリングによる動画LLM向け手法
強化学習
LLM
Yunheng Li, Jing Cheng, Shaoyong Jia, et al.
ワンピース:コンテキスト工学と推論を産業用カスケードランキングシステムに導入する
LLM
マルチタスク学習
Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.
1
23
24
25
26
27
28
29
47
MMR1:分散に配慮したサンプリングおよびオープンリソースを活用したマルチモーダル推論の向上
マルチモーダル
Reasoning
Sicong Leng, Jing Wang, Jiaxi Li, et al.
VCRL:大規模言語モデル向けの分散に基づくカリキュラム強化学習
強化学習
LLM
Guochao Jiang, Wenfeng Feng, Guofeng Quan, et al.
MultiEdit:多様で困難なタスクにおける指示に基づく画像編集の進展
画像間変換
マルチモーダル
Mingsong Li, Lin Liu, Hongjun Wang, et al.
BRISC:Swin-HAFNetを用いた脳腫瘍セグメンテーションおよび分類のためのアノテーション付きデータセット
セマンティックセグメンテーション
画像分類
Amirreza Fateh, Yasin Rezvani, Sara Moayedi, et al.
EmoBench-M:マルチモーダル大規模言語モデルの感情知能のベンチマーク評価
感情認識
マルチモーダル
He Hu, Yucheng Zhou, Lianzhong You, et al.
FDABench:異種データ上の分析クエリ向けデータエージェントのベンチマーク
ベンチマーク
エージェント
Ziting Wang, Shize Zhang, Haitao Yuan, et al.
思考するより絵を描くほうが簡単:テキストから画像を生成するモデルは舞台を設定できるが、演出まではできないか?
テキストから画像生成
Reasoning
Ouxiang Li, Yuan Wang, Xinting Hu, et al.
UniVerse-1:エキスパートのステッチングによる統合型音声・映像生成
Any-to-Any
動画生成
Duomin Wang, Wei Zuo, Aojie Li, et al.
基礎モデルは段階的エムボディド推論においてどれほど優れているか?
エムボディドインテリジェンス
ベンチマーク
Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, et al.
スパイキングブレイン技術報告書:スパイキングブレインをインスパイアした大規模モデル
LLM
Transformer
Yuqi Pan, Yupeng Feng, Jinghao Zhuang, et al.
SAGE:意味理解のための現実的なベンチマーク
ベンチマーク
データセット
Samarth Goel, Reagan J. Lee, Kannan Ramchandran
WAVECLIP:適応的解像度CLIPのためのウェーブレットトークナイゼーション
Transformer
画像分類
Moshe Kimhi, Erez Koifman, Ehud Rivlin, et al.
EmbeddingGemma:強力で軽量なテキスト表現
LLM
Transformer
Henrique Schechter Vera, Sahil Dua, Biao Zhang, et al.
GRPOを用いた音声認識言語モデルにおける音声理解の進展
LLM
監視付き微調整
Avishai Elmakies, Hagai Aronowitz, Nimrod Shabtay, et al.
VLMが視覚空間的知能からどれほど離れているのか? ベンチマーク駆動型の視点から
ベンチマーク
マルチモーダル
Songsong Yu, Yuxin Chen, Hao Ju, et al.
SIM-CoT:教師付き暗黙的チェーン・オブ・シンキング
LLM
監視付き微調整
Xilin Wei, Xiaoran Liu, Yuhang Zang, et al.
SWE-QA:言語モデルはリポジトリレベルのコード質問に答えられるか?
インテリジェントな質問応答
ベンチマーク
Weihan Peng, Yuling Shi, Yuhang Wang, et al.
動画モデルはゼロショット学習者かつ推論者である。
ビデオ理解
マルチモーダル
Thaddäus Wiedemer, Yuxuan Li, Paul Vicol, et al.
機械工学解析問題の重要課題に対するN-Plus-1 GPTエージェンシー
LLM
モデリング
Anthony Patera, Rohan Abeyaratne
メモリQA:マルチモーダル記憶を基にしたリコール質問への回答
視覚質問応答
検索拡張生成
Hongda Jiang, Xinyuan Zhang, Siddhant Garg, et al.
MAPO:ミックスドアドバンテージポリシー最適化
強化学習
Preference Modeling
Wenke Huang, Quan Zhang, Yiyang Fang, et al.
ハイパーバゲル:マルチモーダル理解および生成のための統合型高速化フレームワーク
Any-to-Any
拡散モデル
Yanzuo Lu, Xin Xia, Manlin Zhang, et al.
事前学習データにおける強化学習
強化学習
LLM
Siheng Li, Kejiao Li, Zenan Xu, et al.
視覚運動方策に本体感觉状態は必要か?
ロボティクス
エムボディドインテリジェンス
Juntu Zhao, Wenbo Lu, Di Zhang, et al.
Baseer:アラビア語文書からMarkdownへのOCR向け視覚言語モデル
OCR
LLM
Khalil Hennara, Muhammad Hreden, Mohamed Motasim Hamed, et al.
GenExam:多分野テキスト-to-画像試験
テキストから画像生成
画像生成
Zhaokai Wang, Penghao Yin, Xiangyu Zhao, et al.
Nav-R1:身体化されたシーンにおける推論とナビゲーション
エムボディドインテリジェンス
強化学習
Qingxiang Liu, Ting Huang, Zeyu Zhang, et al.
MoEはあなたが思っているよりも強い:RoEによるハイパープアラレル推論スケーリング
LLM
Transformer
Soheil Zibakhsh, Mohammad Samragh, Kumari Nishu, et al.
ARE:エージェント環境および評価のスケーリング
エージェント
ベンチマーク
Pierre Andrews, Amine Benhalloum, Gerard Moreno-Torres Bertran, et al.
DiffusionNFT:前方過程を用いたオンラインディフュージョン強化学習
拡散モデル
強化学習
Kaiwen Zheng, Huayu Chen, Haotian Ye, et al.
TempSamp-R1:強化学習微調整を用いた効果的な時系列サンプリングによる動画LLM向け手法
強化学習
LLM
Yunheng Li, Jing Cheng, Shaoyong Jia, et al.
ワンピース:コンテキスト工学と推論を産業用カスケードランキングシステムに導入する
LLM
マルチタスク学習
Sunhao Dai, Jiakai Tang, Jiahua Wu, et al.
1
23
24
25
26
27
28
29
47