HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
画像を用いた多モーダル推論の思考:基礎、手法、および将来のフロンティア
マルチモーダル
Reasoning
Zhaochen Su, Peng Xia, Hangyu Guo, et al.
WebSailor: ウェブエージェントの超人的推論をナビゲートする
エージェント
Reasoning
Kuan Li, Zhongwang Zhang, Huifeng Yin, et al.
AIリサーチエージェントによる機械学習:MLE-benchにおける探索、探査、および一般化
強化学習
サイエンスのためのAI
Edan Toledo, Karen Hambardzumyan, Martin Josifoski, et al.
局所性を考慮した並列デコーディングによる効率的な自己回帰画像生成
画像生成
Transformer
Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, et al.
FreeMorph: ディフュージョンモデルを用いたチューニングフリーの汎用画像モーフィング
拡散モデル
画像間変換
Yukang Cao, Chenyang Si, Jinghao Wang, et al.
視覚言語行動モデルに関する調査:行動トークン化の観点から
マルチモーダル
自然言語処理
Yifan Zhong, Fengshuo Bai, Shaofei Cai, et al.
任意の条件における任意の深さ
深度推定
3D マシンビジョン
Boyuan Sun, Modi Jin, Bowen Yin, et al.
LongAnimation: 動的なグローバル-ローカルメモリを用いた長尺アニメーション生成
動画生成
ビデオ理解
Nan Chen, Mengqi Huang, Yihao Meng, et al.
Kwai Keye-VL 技術報告書
ビデオ理解
マルチモーダル
Kwai Keye Team, Biao Yang, Bin Wen, et al.
自動運転向けのビジョン-言語-行動モデルに関する調査
マルチモーダル
自動運転
Sicong Jiang, Zilin Huang, Kangan Qian, et al.
モカ: モダリティ認識の継続的前学習が双方向多様性埋め込みを改善する
マルチモーダル表現
Transformer
Haonan Chen, Hong Liu, Yuping Luo, et al.
FreeLong++: マルチバンドスペクトルフュージョンを用いた学習不要の長尺ビデオ生成
動画生成
テキストから動画
Yu Lu, Yi Yang
トークンを超えて考える:脳からインスピレーションを得た知能から人工一般知能の認知的基礎及其の社会的影響まで
エージェント
Reasoning
Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, et al.
数学的推論が汎用LLMの能力を向上させるか? LLMの推論の転移可能性についての理解
監視付き微調整
モデル学習
Maggie Huan, Yuetai Li, Tuney Zheng, et al.
SciArena: 科学文献タスクのためのオープン評価プラットフォーム
LLM
Preference Modeling
Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, et al.
医学における包括的人工知能;性能向上と説明可能性の改善
マルチモーダル
マルチモーダル表現
Periklis Petridis, Georgios Margaritis, Vasiliki Stoumpou, et al.
進化するコンテキスト内のプロンプト:オープンエンドで自己複製的な視点
LLM
Reasoning
Wang, Jianyu, Hu, et al.
SPIRAL: ゼロサムゲームにおける自己対戦が、マルチエージェント・マルチターン強化学習を介した推論を奨励する
強化学習
Reasoning
Bo Liu, Leon Guertler, Simon Yu, et al.
VLMにおける画像選好の聴取者報酬型思考
Preference Modeling
Reasoning
Alexander Gambashidze, Li Pengyi, Matvey Skripkin, et al.
書道家:フリースタイルテキストイメージのカスタマイズ
拡散モデル
テキストから画像生成
Yue Ma, Qingyan Bai, Hao Ouyang, et al.
VMoBA: ブロック混合注意機構を用いたビデオ拡散モデル
Transformer
動画生成
Jianzong Wu, Liang Hou, Haotian Yang, et al.
SMMILE: 多モーダル医療文脈学習の専門家主導ベンチマーク
マルチモーダル
ベンチマーク
Melanie Rieff, Maya Varma, Ossian Rabow, et al.
自動化LLMスピードランニングベンチマーク:NanoGPTの改善の再現
ベンチマーク
LLM
Bingchen Zhao, Despoina Magka, Minqi Jiang, et al.
Shape-for-Motion: 3D プロキシを用いた精密で一貫性のあるビデオ編集
3Dモデル
ビデオ処理
Yuhao Liu, Tengfei Wang, Fang Liu, et al.
理想から現実へ:統一的でデータ効率の高い密集予測の実世界シナリオへの適用
セマンティックセグメンテーション
マルチタスク学習
Changliang Xia, Chengyou Jia, Zhuohang Dang, et al.
ShotBench: 視覚言語モデルにおける映画的な理解の専門家レベル
視覚質問応答
マルチモーダル
Hongbo Liu, Jingwen He, Yi Jin, et al.
XVerse: 複数主題のアイデンティティと意味属性をDiT調節を通じて一貫して制御する方法
テキストから画像生成
拡散モデル
Bowen Chen, Mengyi Zhao, Haomiao Sun, et al.
24ウェルプレートにおけるゼロショット抗体設計
サイエンスのためのAI
マルチモーダル
Chai Discovery Team
KinFormer: カタリスト有機反応動力学の一般化可能な動的記号回帰
ディープラーニング
モデリング
Jindou Chen, Jidong Tian, Liang Wu, et al.
MiCo: 複数画像の対照性を用いた強化学習視覚推論
Reasoning
マルチモーダル
Xi Chen, Mingkang Zhu, Shaoteng Liu, et al.
微細な嗜好最適化がVLMにおける空間推論を改善する
Reasoning
視覚質問応答
Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, et al.
ARK: ロボット学習のためのオープンソースPythonベースフレームワーク
ロボティクス
エムボディドインテリジェンス
Magnus Dierking, Christopher E. Mower, Sarthak Das, et al.
1
40
41
42
43
44
45
46
47
画像を用いた多モーダル推論の思考:基礎、手法、および将来のフロンティア
マルチモーダル
Reasoning
Zhaochen Su, Peng Xia, Hangyu Guo, et al.
WebSailor: ウェブエージェントの超人的推論をナビゲートする
エージェント
Reasoning
Kuan Li, Zhongwang Zhang, Huifeng Yin, et al.
AIリサーチエージェントによる機械学習:MLE-benchにおける探索、探査、および一般化
強化学習
サイエンスのためのAI
Edan Toledo, Karen Hambardzumyan, Martin Josifoski, et al.
局所性を考慮した並列デコーディングによる効率的な自己回帰画像生成
画像生成
Transformer
Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, et al.
FreeMorph: ディフュージョンモデルを用いたチューニングフリーの汎用画像モーフィング
拡散モデル
画像間変換
Yukang Cao, Chenyang Si, Jinghao Wang, et al.
視覚言語行動モデルに関する調査:行動トークン化の観点から
マルチモーダル
自然言語処理
Yifan Zhong, Fengshuo Bai, Shaofei Cai, et al.
任意の条件における任意の深さ
深度推定
3D マシンビジョン
Boyuan Sun, Modi Jin, Bowen Yin, et al.
LongAnimation: 動的なグローバル-ローカルメモリを用いた長尺アニメーション生成
動画生成
ビデオ理解
Nan Chen, Mengqi Huang, Yihao Meng, et al.
Kwai Keye-VL 技術報告書
ビデオ理解
マルチモーダル
Kwai Keye Team, Biao Yang, Bin Wen, et al.
自動運転向けのビジョン-言語-行動モデルに関する調査
マルチモーダル
自動運転
Sicong Jiang, Zilin Huang, Kangan Qian, et al.
モカ: モダリティ認識の継続的前学習が双方向多様性埋め込みを改善する
マルチモーダル表現
Transformer
Haonan Chen, Hong Liu, Yuping Luo, et al.
FreeLong++: マルチバンドスペクトルフュージョンを用いた学習不要の長尺ビデオ生成
動画生成
テキストから動画
Yu Lu, Yi Yang
トークンを超えて考える:脳からインスピレーションを得た知能から人工一般知能の認知的基礎及其の社会的影響まで
エージェント
Reasoning
Rizwan Qureshi, Ranjan Sapkota, Abbas Shah, et al.
数学的推論が汎用LLMの能力を向上させるか? LLMの推論の転移可能性についての理解
監視付き微調整
モデル学習
Maggie Huan, Yuetai Li, Tuney Zheng, et al.
SciArena: 科学文献タスクのためのオープン評価プラットフォーム
LLM
Preference Modeling
Yilun Zhao, Kaiyan Zhang, Tiansheng Hu, et al.
医学における包括的人工知能;性能向上と説明可能性の改善
マルチモーダル
マルチモーダル表現
Periklis Petridis, Georgios Margaritis, Vasiliki Stoumpou, et al.
進化するコンテキスト内のプロンプト:オープンエンドで自己複製的な視点
LLM
Reasoning
Wang, Jianyu, Hu, et al.
SPIRAL: ゼロサムゲームにおける自己対戦が、マルチエージェント・マルチターン強化学習を介した推論を奨励する
強化学習
Reasoning
Bo Liu, Leon Guertler, Simon Yu, et al.
VLMにおける画像選好の聴取者報酬型思考
Preference Modeling
Reasoning
Alexander Gambashidze, Li Pengyi, Matvey Skripkin, et al.
書道家:フリースタイルテキストイメージのカスタマイズ
拡散モデル
テキストから画像生成
Yue Ma, Qingyan Bai, Hao Ouyang, et al.
VMoBA: ブロック混合注意機構を用いたビデオ拡散モデル
Transformer
動画生成
Jianzong Wu, Liang Hou, Haotian Yang, et al.
SMMILE: 多モーダル医療文脈学習の専門家主導ベンチマーク
マルチモーダル
ベンチマーク
Melanie Rieff, Maya Varma, Ossian Rabow, et al.
自動化LLMスピードランニングベンチマーク:NanoGPTの改善の再現
ベンチマーク
LLM
Bingchen Zhao, Despoina Magka, Minqi Jiang, et al.
Shape-for-Motion: 3D プロキシを用いた精密で一貫性のあるビデオ編集
3Dモデル
ビデオ処理
Yuhao Liu, Tengfei Wang, Fang Liu, et al.
理想から現実へ:統一的でデータ効率の高い密集予測の実世界シナリオへの適用
セマンティックセグメンテーション
マルチタスク学習
Changliang Xia, Chengyou Jia, Zhuohang Dang, et al.
ShotBench: 視覚言語モデルにおける映画的な理解の専門家レベル
視覚質問応答
マルチモーダル
Hongbo Liu, Jingwen He, Yi Jin, et al.
XVerse: 複数主題のアイデンティティと意味属性をDiT調節を通じて一貫して制御する方法
テキストから画像生成
拡散モデル
Bowen Chen, Mengyi Zhao, Haomiao Sun, et al.
24ウェルプレートにおけるゼロショット抗体設計
サイエンスのためのAI
マルチモーダル
Chai Discovery Team
KinFormer: カタリスト有機反応動力学の一般化可能な動的記号回帰
ディープラーニング
モデリング
Jindou Chen, Jidong Tian, Liang Wu, et al.
MiCo: 複数画像の対照性を用いた強化学習視覚推論
Reasoning
マルチモーダル
Xi Chen, Mingkang Zhu, Shaoteng Liu, et al.
微細な嗜好最適化がVLMにおける空間推論を改善する
Reasoning
視覚質問応答
Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, et al.
ARK: ロボット学習のためのオープンソースPythonベースフレームワーク
ロボティクス
エムボディドインテリジェンス
Magnus Dierking, Christopher E. Mower, Sarthak Das, et al.
1
40
41
42
43
44
45
46
47