HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
PaCo-RL:ペアワイズ報酬モデリングを用いた一貫性のある画像生成のための強化学習の進展
強化学習
テキストから画像生成
Bowen Ping, Chengyou Jia, Minnan Luo, et al.
EMMA:統一アーキテクチャを用いた効率的なマルチモーダル理解、生成、編集
Any-to-Any
マルチタスク学習
Xin He, Longhui Wei, Jianbo Ouyang, et al.
EditThinker:あらゆるイメージエディタにおける反復的推論を解き放つ
Reasoning
画像生成
Hongyu Li, Manyuan Zhang, Dian Zheng, et al.
TwinFlow:自己対抗的フローを用いた大規模モデルにおけるワンステップ生成の実現
拡散モデル
テキストから画像生成
Zhenglin Cheng, Peng Sun, Jianguo Li, et al.
CARE-PD:パーキンソン病歩行評価を目的とした多施設匿名化臨床データセット
ビデオ理解
データセット
Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.
WenetSpeech-Chuan:方言音声処理のための大規模な四川語コーパスと豊富なアノテーション
音声および音声処理
データセット
Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.
PolypSense3D:内視鏡における深度認識型ポリープサイズ測定のためのマルチソースベンチマークデータセット
深度推定
セマンティックセグメンテーション
Ruyu Liu, Lin Wang, Zhou Mingming, et al.
PhysDrive:車内ドライバー監視を目的としたマルチモーダル遠隔生理測定データセット
マルチモーダル
コンピュータビジョン
Jiyao Wang, Xiao Yang, Qingyong Hu, et al.
人工ハーモニーマインド:言語モデルの無限に続く均質性(それ以上へ)
LLM
データセット
Liwei Jiang, Yuanjun Chai, Margaret Li, et al.
OmniSVG:統合型スケーラブルベクターグラフィックス生成モデル
画像生成
テキストから画像生成
Yiying Yang, Wei Cheng, Sijin Chen, et al.
アルゴリズム的思考理論
Reasoning
LLM
MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.
ロボットワールドモデル:ロボティクスにおけるロバストな方策最適化のためのニューラルネットワークシミュレータ
ロボティクス
強化学習
Chenhao Li, Andreas Krause, Marco Hutter
リワードフォースティング:リワードド分布マッチング蒸留を用いた効率的なストリーミング動画生成
動画生成
拡散モデル
Yunhong Lu, Yanhong Zeng, Haobo Li, et al.
意味が道を示す:非同期潜在拡散を用いた意味表現とテクスチャ表現の調和
拡散モデル
画像生成
Yueming Pan, Ruoyu Feng, Qi Dai, et al.
ARM-Thinker:エージェントによるツール利用と視覚的推論を活用したマルチモーダル生成型報酬モデルの強化
エージェント
Preference Modeling
Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.
Nex-N1:大規模な環境構築を実現する統合エコシステムを用いたエージェントモデルの訓練
エージェント
LLM
Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.
DAComp:データインテリジェンスライフサイクル全体にわたるデータエージェントのベンチマーク
ベンチマーク
エージェント
Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.
ライブアバター:無限長のリアルタイム音声駆動型アバター生成
拡散モデル
合成
Yubo Huang, Hailong Guo, Fangtai Wu, et al.
F5-TTS:フローマッチングを用いた流暢かつ忠実な発話を偽造する童話作家
Text-to-Speech
Transformer
Yushen Chen, Zhikang Niu, Ziyang Ma, et al.
VOccl3D:現実の遮蔽下における3次元人体ポーズおよび形状推定のための動画ベンチマークデータセット
ビデオ理解
オブジェクト検出
Yash Garg, Saketh Bachu, Arindam Dutta, et al.
アルパマヨ-R1:長尾領域における汎用的な自動運転のための推論と行動予測の統合
Reasoning
強化学習
NVIDIA, Yulong Cao, Tong Che, et al.
すべてはつながっている:テスト時記憶化、注意バイアス、保持、オンライン最適化をめぐる旅
ニューラルネットワーク
Transformer
Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.
推論時スケーリングにおけるテキストから視覚生成へのプロンプト設計の再考
テキストから画像生成
拡散モデル
Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.
推論時スケーリングアプローチとしての視覚言語行動モデルのステアリング:探索の逆効果
Any-to-Any
監視付き微調整
Siyuan Yang, Yang Zhang, Haoran He, et al.
OneThinker:画像および動画向けの一体型推論モデル
視覚質問応答
マルチタスク学習
Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.
ViDiC:ビデオ差分キャプション
Video Captioning
マルチモーダル
Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.
PretrainZero:強化学習を用いたアクティブ事前学習
強化学習
Reasoning
Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.
すべてのトークンが重要である:大規模言語モデルにおける1600万トークン超の長文脈の一般化
LLM
Transformer
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.
SimScale:スケールにおける現実世界シミュレーションを用いたドライブ学習
自動運転
合成
Haochen Tian, Tianyu Li, Haochen Liu, et al.
Skywork-R1V4:画像とDeepResearchを用いたインタリーブド・シンキングによるエージェント型マルチモーダル知能への挑戦
エージェント
検索拡張生成
Yifan Zhang, Liang Hu, Haofeng Sun, et al.
最小限の人的監視によるガイド付き自己進化型LLM
LLM
Reasoning
Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.
MultiShotMaster:制御可能なマルチショット動画生成フレームワーク
動画生成
テキストから動画
Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.
1
10
11
12
13
14
15
16
49
PaCo-RL:ペアワイズ報酬モデリングを用いた一貫性のある画像生成のための強化学習の進展
強化学習
テキストから画像生成
Bowen Ping, Chengyou Jia, Minnan Luo, et al.
EMMA:統一アーキテクチャを用いた効率的なマルチモーダル理解、生成、編集
Any-to-Any
マルチタスク学習
Xin He, Longhui Wei, Jianbo Ouyang, et al.
EditThinker:あらゆるイメージエディタにおける反復的推論を解き放つ
Reasoning
画像生成
Hongyu Li, Manyuan Zhang, Dian Zheng, et al.
TwinFlow:自己対抗的フローを用いた大規模モデルにおけるワンステップ生成の実現
拡散モデル
テキストから画像生成
Zhenglin Cheng, Peng Sun, Jianguo Li, et al.
CARE-PD:パーキンソン病歩行評価を目的とした多施設匿名化臨床データセット
ビデオ理解
データセット
Vida Adeli, Ivan Klabucar, Javad Rajabi, et al.
WenetSpeech-Chuan:方言音声処理のための大規模な四川語コーパスと豊富なアノテーション
音声および音声処理
データセット
Yuhang Dai, Ziyu Zhang, Shuai Wang, et al.
PolypSense3D:内視鏡における深度認識型ポリープサイズ測定のためのマルチソースベンチマークデータセット
深度推定
セマンティックセグメンテーション
Ruyu Liu, Lin Wang, Zhou Mingming, et al.
PhysDrive:車内ドライバー監視を目的としたマルチモーダル遠隔生理測定データセット
マルチモーダル
コンピュータビジョン
Jiyao Wang, Xiao Yang, Qingyong Hu, et al.
人工ハーモニーマインド:言語モデルの無限に続く均質性(それ以上へ)
LLM
データセット
Liwei Jiang, Yuanjun Chai, Margaret Li, et al.
OmniSVG:統合型スケーラブルベクターグラフィックス生成モデル
画像生成
テキストから画像生成
Yiying Yang, Wei Cheng, Sijin Chen, et al.
アルゴリズム的思考理論
Reasoning
LLM
MohammadHossein Bateni, Vincent Cohen-Addad, Yuzhou Gu, et al.
ロボットワールドモデル:ロボティクスにおけるロバストな方策最適化のためのニューラルネットワークシミュレータ
ロボティクス
強化学習
Chenhao Li, Andreas Krause, Marco Hutter
リワードフォースティング:リワードド分布マッチング蒸留を用いた効率的なストリーミング動画生成
動画生成
拡散モデル
Yunhong Lu, Yanhong Zeng, Haobo Li, et al.
意味が道を示す:非同期潜在拡散を用いた意味表現とテクスチャ表現の調和
拡散モデル
画像生成
Yueming Pan, Ruoyu Feng, Qi Dai, et al.
ARM-Thinker:エージェントによるツール利用と視覚的推論を活用したマルチモーダル生成型報酬モデルの強化
エージェント
Preference Modeling
Shengyuan Ding, Xinyu Fang, Ziyu Liu, et al.
Nex-N1:大規模な環境構築を実現する統合エコシステムを用いたエージェントモデルの訓練
エージェント
LLM
Nex-AGI Team, Yuxuan Cai, Lu Chen, et al.
DAComp:データインテリジェンスライフサイクル全体にわたるデータエージェントのベンチマーク
ベンチマーク
エージェント
Fangyu Lei, Jinxiang Meng, Yiming Huang, et al.
ライブアバター:無限長のリアルタイム音声駆動型アバター生成
拡散モデル
合成
Yubo Huang, Hailong Guo, Fangtai Wu, et al.
F5-TTS:フローマッチングを用いた流暢かつ忠実な発話を偽造する童話作家
Text-to-Speech
Transformer
Yushen Chen, Zhikang Niu, Ziyang Ma, et al.
VOccl3D:現実の遮蔽下における3次元人体ポーズおよび形状推定のための動画ベンチマークデータセット
ビデオ理解
オブジェクト検出
Yash Garg, Saketh Bachu, Arindam Dutta, et al.
アルパマヨ-R1:長尾領域における汎用的な自動運転のための推論と行動予測の統合
Reasoning
強化学習
NVIDIA, Yulong Cao, Tong Che, et al.
すべてはつながっている:テスト時記憶化、注意バイアス、保持、オンライン最適化をめぐる旅
ニューラルネットワーク
Transformer
Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.
推論時スケーリングにおけるテキストから視覚生成へのプロンプト設計の再考
テキストから画像生成
拡散モデル
Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.
推論時スケーリングアプローチとしての視覚言語行動モデルのステアリング:探索の逆効果
Any-to-Any
監視付き微調整
Siyuan Yang, Yang Zhang, Haoran He, et al.
OneThinker:画像および動画向けの一体型推論モデル
視覚質問応答
マルチタスク学習
Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.
ViDiC:ビデオ差分キャプション
Video Captioning
マルチモーダル
Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.
PretrainZero:強化学習を用いたアクティブ事前学習
強化学習
Reasoning
Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.
すべてのトークンが重要である:大規模言語モデルにおける1600万トークン超の長文脈の一般化
LLM
Transformer
Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.
SimScale:スケールにおける現実世界シミュレーションを用いたドライブ学習
自動運転
合成
Haochen Tian, Tianyu Li, Haochen Liu, et al.
Skywork-R1V4:画像とDeepResearchを用いたインタリーブド・シンキングによるエージェント型マルチモーダル知能への挑戦
エージェント
検索拡張生成
Yifan Zhang, Liang Hu, Haofeng Sun, et al.
最小限の人的監視によるガイド付き自己進化型LLM
LLM
Reasoning
Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.
MultiShotMaster:制御可能なマルチショット動画生成フレームワーク
動画生成
テキストから動画
Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.
1
10
11
12
13
14
15
16
49