HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
BEAR:原子的な身体的機能を備えたマルチモーダル言語モデルのベンチマーク設定と性能向上
エージェント
ベンチマーク
Yu Qi, Haibo Zhao, Ziyu Guo, et al.
表現自己符号化器を用いた拡散変換器
拡散モデル
画像生成
Boyang Zheng, Nanye Ma, Shengbang Tong, et al.
QeRL:効率性を越えて――量子化拡張型強化学習による大規模言語モデル向けアプローチ
強化学習
モデル学習
Wei Huang, Yi Ge, Shuai Yang, et al.
逆行列を必要としないウィルソン環:変換器における不変性および順序敏感性の実用的診断
Transformer
監視付き微調整
Edward Y. Chang, Ethan Y. Chang
TUMIX:ツール利用混合を用いたマルチエージェントのテスト時スケーリング
エージェント
Reasoning
Yongchao Chen, Jiefeng Chen, Rui Meng, et al.
R-Horizon:大規模な推論モデルの広がりと深さにおける到達可能範囲はどこまでか?
Reasoning
ベンチマーク
Yi Lu, Jianing Wang, Linsen Guo, et al.
AutoPR:学術昇進を自動化しましょう!
ベンチマーク
マルチモーダル
Qiguang Chen, Zheng Yan, Mingda Yang, et al.
マルチモーダル・プロンプト最適化:MLLMsにおいて複数のモダリティを活用しない理由は何か
マルチモーダル
Any-to-Any
Yumin Choi, Dongki Kim, Jinheon Baek, et al.
補正方向誘導による妄想耐性のある拡散サンプリング
拡散モデル
画像生成
Hyunmin Cho, Donghoon Ahn, Susung Hong, et al.
カメラで考える:カメラ中心の理解と生成のための統合型マルチモーダルモデル
マルチモーダル
Any-to-Any
Kang Liao, Size Wu, Zhonghua Wu, et al.
D2E:エムボディドAIへの転移を目的としたデスクトップデータ上の視覚-行動事前学習のスケーリング
エムボディドインテリジェンス
Any-to-Any
Suwhan Choi, Jaeyoon Jung, Haebin Seong, et al.
Code2Video:教育用動画生成のためのコード中心型パラダイム
動画生成
コード生成
Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou
バイアス博士:AIを活用した医療支援における社会的格差
自然言語処理
医学
Emma Kondrup, Anne Imouza
大規模言語モデルにおける2次最適化の可能性:フル・ガウス・ニュートン法を用いた研究
Transformer
LLM
Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.
メタ認識が推論モデルを向上させる:自己整合強化学習
Reasoning
LLM
Yoonjeon Kim, Doohyuk Jang, Eunho Yang
何が起こったかからなぜ起こったかへ:根拠に基づく化学反応条件の推論のためのマルチエージェントシステム
エージェント
検索拡張生成
Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.
DreamOmni2:マルチモーダルな指示ベースの編集と生成
マルチモーダル
画像生成
Bin Xia, Bohao Peng, Yuechen Zhang, et al.
VideoCanvas:文脈条件付きによる任意の時空間パッチからの統一的動画補完
動画生成
画像修復
Minghong Cai, Qiulin Wang, Zongli Ye, et al.
UniVideo:動画の統合的理解・生成・編集
Any-to-Any
動画生成
Cong Wei, Quande Liu, Zixuan Ye, et al.
MemMamba:状態空間モデルにおけるメモリパターンの再考
Transformer
自然言語処理
Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.
PromptCoT 2.0:大規模言語モデル推論のためのプロンプト生成のスケーリング
LLM
Reasoning
Xueliang Zhao, Wei Wu, Jian Guan, et al.
抽出-0:ドキュメント情報抽出のための専門化された言語モデル
監視付き微調整
ドキュメント理解
Henrique Godoy
オムニリターゲット:ヒューマノイド全身運動と操作およびシーンインタラクションのためのインタラクション保持型データ生成
ロボティクス
強化学習
Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.
WildSpeech-Bench:野生環境におけるエンドツーエンド音声LLMのベンチマーク
ベンチマーク
音声および音声処理
Linhao Zhang, Jian Zhang, Bokai Lei, et al.
大規模言語モデルの整合性向上のためのトークン認識型内部活性の編集
LLM
監視付き微調整
Tianbo Wang, Yuqing Ma, Kewei Liao, et al.
学びを追求する:リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング
視覚質問応答
Transformer
Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.
エージェントの早期経験を用いた学習
監視付き微調整
強化学習
Kai Zhang, Xiangchao Chen, Bo Liu, et al.
MATRIX:インタラクション認識型動画生成のためのマスクトラックアライメント
動画生成
テキストから動画
Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.
RLinf-VLA:VLA+RL学習を統合的かつ効率的に実現するフレームワーク
強化学習
マルチモーダル表現
Hongzhi Zang, Mingjie Wei, Si Xu, et al.
SHANKS:音声言語モデルにおける同時聴取と思考
音声および音声処理
人間-コンピュータインタラクション
Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.
Lumina-DiMOO:マルチモーダル生成および理解を目的としたオムニ拡散大規模言語モデル
Any-to-Any
拡散モデル
Yi Xin, Qi Qin, Siqi Luo, et al.
キャッシュ間通信:大規模言語モデル間の直接的な意味通信
LLM
Transformer
Tianyu Fu, Zihan Min, Hanling Zhang, et al.
1
20
21
22
23
24
25
26
47
BEAR:原子的な身体的機能を備えたマルチモーダル言語モデルのベンチマーク設定と性能向上
エージェント
ベンチマーク
Yu Qi, Haibo Zhao, Ziyu Guo, et al.
表現自己符号化器を用いた拡散変換器
拡散モデル
画像生成
Boyang Zheng, Nanye Ma, Shengbang Tong, et al.
QeRL:効率性を越えて――量子化拡張型強化学習による大規模言語モデル向けアプローチ
強化学習
モデル学習
Wei Huang, Yi Ge, Shuai Yang, et al.
逆行列を必要としないウィルソン環:変換器における不変性および順序敏感性の実用的診断
Transformer
監視付き微調整
Edward Y. Chang, Ethan Y. Chang
TUMIX:ツール利用混合を用いたマルチエージェントのテスト時スケーリング
エージェント
Reasoning
Yongchao Chen, Jiefeng Chen, Rui Meng, et al.
R-Horizon:大規模な推論モデルの広がりと深さにおける到達可能範囲はどこまでか?
Reasoning
ベンチマーク
Yi Lu, Jianing Wang, Linsen Guo, et al.
AutoPR:学術昇進を自動化しましょう!
ベンチマーク
マルチモーダル
Qiguang Chen, Zheng Yan, Mingda Yang, et al.
マルチモーダル・プロンプト最適化:MLLMsにおいて複数のモダリティを活用しない理由は何か
マルチモーダル
Any-to-Any
Yumin Choi, Dongki Kim, Jinheon Baek, et al.
補正方向誘導による妄想耐性のある拡散サンプリング
拡散モデル
画像生成
Hyunmin Cho, Donghoon Ahn, Susung Hong, et al.
カメラで考える:カメラ中心の理解と生成のための統合型マルチモーダルモデル
マルチモーダル
Any-to-Any
Kang Liao, Size Wu, Zhonghua Wu, et al.
D2E:エムボディドAIへの転移を目的としたデスクトップデータ上の視覚-行動事前学習のスケーリング
エムボディドインテリジェンス
Any-to-Any
Suwhan Choi, Jaeyoon Jung, Haebin Seong, et al.
Code2Video:教育用動画生成のためのコード中心型パラダイム
動画生成
コード生成
Yanzhe Chen, Kevin Qinghong Lin, Mike Zheng Shou
バイアス博士:AIを活用した医療支援における社会的格差
自然言語処理
医学
Emma Kondrup, Anne Imouza
大規模言語モデルにおける2次最適化の可能性:フル・ガウス・ニュートン法を用いた研究
Transformer
LLM
Natalie Abreu, Nikhil Vyas, Sham Kakade, et al.
メタ認識が推論モデルを向上させる:自己整合強化学習
Reasoning
LLM
Yoonjeon Kim, Doohyuk Jang, Eunho Yang
何が起こったかからなぜ起こったかへ:根拠に基づく化学反応条件の推論のためのマルチエージェントシステム
エージェント
検索拡張生成
Cheng Yang, Jiaxuan Lu, Haiyuan Wan, et al.
DreamOmni2:マルチモーダルな指示ベースの編集と生成
マルチモーダル
画像生成
Bin Xia, Bohao Peng, Yuechen Zhang, et al.
VideoCanvas:文脈条件付きによる任意の時空間パッチからの統一的動画補完
動画生成
画像修復
Minghong Cai, Qiulin Wang, Zongli Ye, et al.
UniVideo:動画の統合的理解・生成・編集
Any-to-Any
動画生成
Cong Wei, Quande Liu, Zixuan Ye, et al.
MemMamba:状態空間モデルにおけるメモリパターンの再考
Transformer
自然言語処理
Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.
PromptCoT 2.0:大規模言語モデル推論のためのプロンプト生成のスケーリング
LLM
Reasoning
Xueliang Zhao, Wei Wu, Jian Guan, et al.
抽出-0:ドキュメント情報抽出のための専門化された言語モデル
監視付き微調整
ドキュメント理解
Henrique Godoy
オムニリターゲット:ヒューマノイド全身運動と操作およびシーンインタラクションのためのインタラクション保持型データ生成
ロボティクス
強化学習
Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.
WildSpeech-Bench:野生環境におけるエンドツーエンド音声LLMのベンチマーク
ベンチマーク
音声および音声処理
Linhao Zhang, Jian Zhang, Bokai Lei, et al.
大規模言語モデルの整合性向上のためのトークン認識型内部活性の編集
LLM
監視付き微調整
Tianbo Wang, Yuqing Ma, Kewei Liao, et al.
学びを追求する:リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング
視覚質問応答
Transformer
Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.
エージェントの早期経験を用いた学習
監視付き微調整
強化学習
Kai Zhang, Xiangchao Chen, Bo Liu, et al.
MATRIX:インタラクション認識型動画生成のためのマスクトラックアライメント
動画生成
テキストから動画
Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.
RLinf-VLA:VLA+RL学習を統合的かつ効率的に実現するフレームワーク
強化学習
マルチモーダル表現
Hongzhi Zang, Mingjie Wei, Si Xu, et al.
SHANKS:音声言語モデルにおける同時聴取と思考
音声および音声処理
人間-コンピュータインタラクション
Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.
Lumina-DiMOO:マルチモーダル生成および理解を目的としたオムニ拡散大規模言語モデル
Any-to-Any
拡散モデル
Yi Xin, Qi Qin, Siqi Luo, et al.
キャッシュ間通信:大規模言語モデル間の直接的な意味通信
LLM
Transformer
Tianyu Fu, Zihan Min, Hanling Zhang, et al.
1
20
21
22
23
24
25
26
47