HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
多モーダル基盤モデルはスキーマ図を理解できるか?科学論文の情報探索QAに関する実証研究
視覚質問応答
ドキュメント理解
Yilun Zhao, Chengye Wang, Chuhan Li, et al.
最適データ混合のスケーリング則
LLM
マルチモーダル
Mustafa Shukor, Louis Bethune, Dan Busbridge, et al.
主題一貫かつ姿勢多様なテキストから画像生成
テキストから画像生成
拡散モデル
Zhanxin Gao, Beier Zhu, Liang Yao, et al.
ビジョン言語ビジョン 自動エンコーダー: ディフュージョンモデルからのスケーラブルな知識蒸留
画像説明
拡散モデル
Tiezheng Zhang, Yitong Li, Yu-cheng Chou, et al.
DuetGraph: 粗密から精密へ知識グラフ推論の双方向グローバル-ローカル融合
Reasoning
ディープラーニング
Jin Li, Zezhong Ding, Xike Xie
CogDDN: 認知的ニーズに基づくナビゲーションと意思決定の最適化および二重過程思考
エージェント
Reasoning
Yuehao Huang, Liang Liu, Shuangming Lei, et al.
LayerCake: 大規模言語モデルの層内のトークン認識対照的デコーディング
LLM
Transformer
Jingze Zhu, Yongliang Wu, Wenbo Zhu, et al.
Mixture-of-Recursions: 動的な再帰深度の学習による適応的なトークンレベル計算
Transformer
LLM
Sangmin Bae, Yujin Kim, Reza Bayat, et al.
REST: 複数の問題を一度に提示することで大規模推論モデルのストレステストを行う
ベンチマーク
Reasoning
Zhuoshi Pan, Qizhi Pei, Yu Li, et al.
EmbRACE-3K: 複雑な環境における身体化された推論と行動
エムボディドインテリジェンス
ベンチマーク
Mingxian Lin, Wei Huang, Yitang Li, et al.
推論か記憶か?強化学習のデータ汚染による信頼性の低い結果
ベンチマーク
強化学習
Mingqi Wu, Zhihao Zhang, Qiaole Dong, et al.
SpeakerVid-5M: 大規模高品質データセットによる音声視覚的な二人間相互作用のヒューマンジェネレーション
ビデオ理解
マルチモーダル
Youliang Zhang, Zhaoyang Li, Duomin Wang, et al.
VerifyBench: 複数領域における推論検証システムのための体系的なベンチマーク
ベンチマーク
LLM
Xuzhao Li, Xuchen Li, Shiyu Hu, et al.
サイドチェーンの条件付けとモデリングを用いたFAMPNNによる全原子プロテインシーケンス設計
Transformer
ディープラーニング
Talal Widatalla, Richard W. Shuai, Brian Hie, et al.
One Token to Fool LLM-as-a-Judge 一つのトークンでLLMジャッジを欺く
LLM
ベンチマーク
Yulai Zhao, Haolin Liu, Dian Yu, et al.
From One to More: Contextual Part Latents for 3D Generation を 一から多へ:3D生成のための文脈に基づいた部分潜在変数
3D生成
拡散モデル
Shaocong Dong, Lihe Ding, Xiao Chen, et al.
オープンビジョンリーズナー:言語認知行動の視覚的推論への転送
視覚質問応答
Reasoning
Yana Wei, Liang Zhao, Jianjian Sun, et al.
Lumos-1: 統一モデルの視点から自己回帰ビデオ生成について
Any-to-Any
LLM
Hangjie Yuan, Weihua Chen, Jun Cen, et al.
ニューラル駆動画像編集
マルチモーダル
画像間変換
Pengfei Zhou, Jie Xia, Xiaopeng Peng, et al.
NeuralOS: ニューラルジェネレーティブモデルを用いたオペレーティングシステムのシミュレーションへ向け偰
人間-コンピュータインタラクション
ビデオ理解
Luke Rivard, Sun Sun, Hongyu Guo, et al.
CLiFT: 圧縮された光線トークンを用いた計算効率の高い適応型ニューラルレンダリング
3D マシンビジョン
深度推定
Zhengqing Wang, Yuefan Wu, Jiacheng Chen, et al.
システム・オブ・システムズのモデリングと最適化:複合モビリティの統合フレームワーク
モデリング
合成
Paul Saves, Jasper Bussemaker, R\u00e9mi Lafage, et al.
全原子拡散トランスフォーマー:分子と材料の統一生成モデリング
拡散モデル
Transformer
Chaitanya K. Joshi, Xiang Fu, Yi-Lun Liao, et al.
OST-Bench: オンライン空間時間シーン理解のMLLMの能力評価
視覚質問応答
エージェント
JingLi Lin, Chenming Zhu, Runsen Xu, et al.
トレーサブル証拠強化視覚基盤リーズニング:評価と方法論
視覚質問応答
Reasoning
Haochen Wang, Xiangtai Li, Zilong Huang, et al.
MIRIX: 多エージェント記憶システム LLMBasedエージェント向け
LLM
視覚質問応答
Yu Wang, Xi Chen
Skywork-R1V3 技術報告書
視覚質問応答
マルチモーダル
Wei Shen, Jiangbo Pei, Yi Peng, et al.
T-LoRA: 単一画像拡散モデルのカスタマイズにおける過学習の回避
拡散モデル
画像生成
Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, et al.
長時間動画へのRLの拡張
視覚質問応答
LLM
Yukang Chen, Wei Huang, Baifeng Shi, et al.
世界モデルの批判
モデリング
Reasoning
Eric Xing, Mingkai Deng, Jinyu Hou, et al.
多様性だけで大規模なロボット操作は可能か?
Any-to-Any
マルチタスク学習
Modi Shi, Li Chen, Jin Chen, et al.
Nile-Chat: アラビア文字とラテン文字のためのエジプト語言語モデル
LLM
テキスト生成
Guokan Shang, Hadi Abdine, Ahmad Chamma, et al.
1
38
39
40
41
42
43
44
47
多モーダル基盤モデルはスキーマ図を理解できるか?科学論文の情報探索QAに関する実証研究
視覚質問応答
ドキュメント理解
Yilun Zhao, Chengye Wang, Chuhan Li, et al.
最適データ混合のスケーリング則
LLM
マルチモーダル
Mustafa Shukor, Louis Bethune, Dan Busbridge, et al.
主題一貫かつ姿勢多様なテキストから画像生成
テキストから画像生成
拡散モデル
Zhanxin Gao, Beier Zhu, Liang Yao, et al.
ビジョン言語ビジョン 自動エンコーダー: ディフュージョンモデルからのスケーラブルな知識蒸留
画像説明
拡散モデル
Tiezheng Zhang, Yitong Li, Yu-cheng Chou, et al.
DuetGraph: 粗密から精密へ知識グラフ推論の双方向グローバル-ローカル融合
Reasoning
ディープラーニング
Jin Li, Zezhong Ding, Xike Xie
CogDDN: 認知的ニーズに基づくナビゲーションと意思決定の最適化および二重過程思考
エージェント
Reasoning
Yuehao Huang, Liang Liu, Shuangming Lei, et al.
LayerCake: 大規模言語モデルの層内のトークン認識対照的デコーディング
LLM
Transformer
Jingze Zhu, Yongliang Wu, Wenbo Zhu, et al.
Mixture-of-Recursions: 動的な再帰深度の学習による適応的なトークンレベル計算
Transformer
LLM
Sangmin Bae, Yujin Kim, Reza Bayat, et al.
REST: 複数の問題を一度に提示することで大規模推論モデルのストレステストを行う
ベンチマーク
Reasoning
Zhuoshi Pan, Qizhi Pei, Yu Li, et al.
EmbRACE-3K: 複雑な環境における身体化された推論と行動
エムボディドインテリジェンス
ベンチマーク
Mingxian Lin, Wei Huang, Yitang Li, et al.
推論か記憶か?強化学習のデータ汚染による信頼性の低い結果
ベンチマーク
強化学習
Mingqi Wu, Zhihao Zhang, Qiaole Dong, et al.
SpeakerVid-5M: 大規模高品質データセットによる音声視覚的な二人間相互作用のヒューマンジェネレーション
ビデオ理解
マルチモーダル
Youliang Zhang, Zhaoyang Li, Duomin Wang, et al.
VerifyBench: 複数領域における推論検証システムのための体系的なベンチマーク
ベンチマーク
LLM
Xuzhao Li, Xuchen Li, Shiyu Hu, et al.
サイドチェーンの条件付けとモデリングを用いたFAMPNNによる全原子プロテインシーケンス設計
Transformer
ディープラーニング
Talal Widatalla, Richard W. Shuai, Brian Hie, et al.
One Token to Fool LLM-as-a-Judge 一つのトークンでLLMジャッジを欺く
LLM
ベンチマーク
Yulai Zhao, Haolin Liu, Dian Yu, et al.
From One to More: Contextual Part Latents for 3D Generation を 一から多へ:3D生成のための文脈に基づいた部分潜在変数
3D生成
拡散モデル
Shaocong Dong, Lihe Ding, Xiao Chen, et al.
オープンビジョンリーズナー:言語認知行動の視覚的推論への転送
視覚質問応答
Reasoning
Yana Wei, Liang Zhao, Jianjian Sun, et al.
Lumos-1: 統一モデルの視点から自己回帰ビデオ生成について
Any-to-Any
LLM
Hangjie Yuan, Weihua Chen, Jun Cen, et al.
ニューラル駆動画像編集
マルチモーダル
画像間変換
Pengfei Zhou, Jie Xia, Xiaopeng Peng, et al.
NeuralOS: ニューラルジェネレーティブモデルを用いたオペレーティングシステムのシミュレーションへ向け偰
人間-コンピュータインタラクション
ビデオ理解
Luke Rivard, Sun Sun, Hongyu Guo, et al.
CLiFT: 圧縮された光線トークンを用いた計算効率の高い適応型ニューラルレンダリング
3D マシンビジョン
深度推定
Zhengqing Wang, Yuefan Wu, Jiacheng Chen, et al.
システム・オブ・システムズのモデリングと最適化:複合モビリティの統合フレームワーク
モデリング
合成
Paul Saves, Jasper Bussemaker, R\u00e9mi Lafage, et al.
全原子拡散トランスフォーマー:分子と材料の統一生成モデリング
拡散モデル
Transformer
Chaitanya K. Joshi, Xiang Fu, Yi-Lun Liao, et al.
OST-Bench: オンライン空間時間シーン理解のMLLMの能力評価
視覚質問応答
エージェント
JingLi Lin, Chenming Zhu, Runsen Xu, et al.
トレーサブル証拠強化視覚基盤リーズニング:評価と方法論
視覚質問応答
Reasoning
Haochen Wang, Xiangtai Li, Zilong Huang, et al.
MIRIX: 多エージェント記憶システム LLMBasedエージェント向け
LLM
視覚質問応答
Yu Wang, Xi Chen
Skywork-R1V3 技術報告書
視覚質問応答
マルチモーダル
Wei Shen, Jiangbo Pei, Yi Peng, et al.
T-LoRA: 単一画像拡散モデルのカスタマイズにおける過学習の回避
拡散モデル
画像生成
Vera Soboleva, Aibek Alanov, Andrey Kuznetsov, et al.
長時間動画へのRLの拡張
視覚質問応答
LLM
Yukang Chen, Wei Huang, Baifeng Shi, et al.
世界モデルの批判
モデリング
Reasoning
Eric Xing, Mingkai Deng, Jinyu Hou, et al.
多様性だけで大規模なロボット操作は可能か?
Any-to-Any
マルチタスク学習
Modi Shi, Li Chen, Jin Chen, et al.
Nile-Chat: アラビア文字とラテン文字のためのエジプト語言語モデル
LLM
テキスト生成
Guokan Shang, Hadi Abdine, Ahmad Chamma, et al.
1
38
39
40
41
42
43
44
47