HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
LongWriter-Zero: 強化学習を用いた超長文生成の掌握
LLM
テキスト生成
Yuhao Wu, Yushi Bai, Zhiqiang Hu, et al.
ノーマルの光:普遍的なフォトメトリックステレオのための統一特徴表現
コンピュータビジョン
画像理解
Hong Li, Houyuan Chen, Chongjie Ye, et al.
状態を用いて多様なコンテキストにおける細胞の摂動に対する反応を予測する
ディープラーニング
モデリング
Abhinav K. Adduri, Dhruv Gautam, Beatrice Bevilacqua, et al.
CodeDiffuser: 注意力強化拡散ポリシーとVLM生成コードによる指示の曖昧性解消
ロボティクス
コード生成
Guang Yin, Yitong Li, Yixuan Wang, et al.
多言語テキストツーティークの最適化:アクセントと感情を考慮して
Text-to-Speech
Any-to-Any
Pawar, Pranav, Dwivedi, et al.
VIKI-R: 強化学習を用いた身体化マルチエージェント協調の調整
エムボディドインテリジェンス
強化学習
Kang, Li, Song, et al.
PAROAttention: パターン認識に基づく効率的なスパースおよび量子化された注意機構の並べ替え
Transformer
ビデオ処理
Zhao, Tianchen, Hong, et al.
ビジョンガイドチャンキングがすべて:マルチモーダル文書理解によるRAGの強化
検索拡張生成
ドキュメント理解
Tripathi, Vishesh, Odapally, et al.
ドラッグアンドドロップ LLM: ゼロショット プロンプトツーウェイツ
LLM
機械学習
Liang, Zhiyuan, Tang, et al.
進化キャッシュを用いた既製の拡散モデルの加速
拡散モデル
テキストから画像生成
Aggarwal, Anirud, Shrivastava, et al.
RE-IMAGINE: 記号ベンチマーク合成による推論評価
LLM
Reasoning
Xu, Xinnuo, Lawrence, et al.
SonicVerse: 音楽特徴を活用した多タスク学習によるキャプショニング
マルチモーダル
Text-to-Speech
Chopra, Anuradha, Roy, et al.
すべてが失われたわけではない:チェックポイントなしのLLM回復
Transformer
モデル学習
Blagoev, Nikolay, Ersoy, et al.
サンダイアル:高性能な時系列基礎モデルのファミリー
Transformer
モデリング
Yong Liu, Guo Qin, Zhiyuan Shi, et al.
ADRD: 規則に基づく意思決定システムを用いたLLM駆動の自動運転
LLM
Reasoning
Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, et al.
構造化指示によるチャートからコードの生成における改良された反復精緻化
コード生成
マルチモーダル
Chengzhi Xu, Yuyang Wang, Lai Wei, et al.
Show-o2: 改良されたネイティブ統一マルチモーダルモデル
Any-to-Any
マルチモーダル表現
Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
強化学習を用いたLLMの推論の再検討:クロスドメインの観点から
強化学習
Reasoning
Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.
Raptor: 3次元医療データのスケーラブルな学習不要埋め込みを実現する、事前学習済み2次元基盤モデルを活用した手法
Transformer
医療画像
Ulzee An, Moonseong Jeong, Simon Austin Lee, et al.
EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク
感情認識
データセット
Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.
s1:単純なテスト時スケーリング
監視付き微調整
Reasoning
Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.
Search-o1:エージェント型検索強化型大規模推論モデル
検索拡張生成
エージェント
Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.
LLaVA-Mini:1つのビジョントークンを用いた効率的な画像および動画大規模マルチモーダルモデル
マルチモーダル
Any-to-Any
Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.
MAmmoTH-VL:スケールにおける指示チューニングを用いたマルチモーダル推論の促進
マルチモーダル
Reasoning
Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.
ShowUI:GUI視覚エージェント向けのワンビジョン・言語・アクションモデル
マルチモーダル
画像理解
Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.
OS-ATLAS:汎用GUIエージェント向け基盤行動モデル
エージェント
データセット
Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.
GPT-4o システムカード
マルチモーダル
Any-to-Any
OpenAI, Aaron Hurst, Adam Lerer, et al.
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張
セマンティックセグメンテーション
オブジェクト追跡
Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.
アリア:オープンなマルチモーダルネイティブ・ミクスチャーオブエキスパートモデル
マルチモーダル
Any-to-Any
Dongxu Li, Yudong Liu, Haoning Wu, et al.
Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上
マルチモーダル
Any-to-Any
Peng Wang, Shuai Bai, Sinan Tan, et al.
VGGT: Visual Geometry Grounded Transformer VGGT: ビジュアル・ジオメトリ・グラウンデッド・トランスフォーマー
3D マシンビジョン
深度推定
Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.
単一ステップ報酬を用いたマルチターンコード生成
コード生成
強化学習
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.
1
42
43
44
45
46
47
LongWriter-Zero: 強化学習を用いた超長文生成の掌握
LLM
テキスト生成
Yuhao Wu, Yushi Bai, Zhiqiang Hu, et al.
ノーマルの光:普遍的なフォトメトリックステレオのための統一特徴表現
コンピュータビジョン
画像理解
Hong Li, Houyuan Chen, Chongjie Ye, et al.
状態を用いて多様なコンテキストにおける細胞の摂動に対する反応を予測する
ディープラーニング
モデリング
Abhinav K. Adduri, Dhruv Gautam, Beatrice Bevilacqua, et al.
CodeDiffuser: 注意力強化拡散ポリシーとVLM生成コードによる指示の曖昧性解消
ロボティクス
コード生成
Guang Yin, Yitong Li, Yixuan Wang, et al.
多言語テキストツーティークの最適化:アクセントと感情を考慮して
Text-to-Speech
Any-to-Any
Pawar, Pranav, Dwivedi, et al.
VIKI-R: 強化学習を用いた身体化マルチエージェント協調の調整
エムボディドインテリジェンス
強化学習
Kang, Li, Song, et al.
PAROAttention: パターン認識に基づく効率的なスパースおよび量子化された注意機構の並べ替え
Transformer
ビデオ処理
Zhao, Tianchen, Hong, et al.
ビジョンガイドチャンキングがすべて:マルチモーダル文書理解によるRAGの強化
検索拡張生成
ドキュメント理解
Tripathi, Vishesh, Odapally, et al.
ドラッグアンドドロップ LLM: ゼロショット プロンプトツーウェイツ
LLM
機械学習
Liang, Zhiyuan, Tang, et al.
進化キャッシュを用いた既製の拡散モデルの加速
拡散モデル
テキストから画像生成
Aggarwal, Anirud, Shrivastava, et al.
RE-IMAGINE: 記号ベンチマーク合成による推論評価
LLM
Reasoning
Xu, Xinnuo, Lawrence, et al.
SonicVerse: 音楽特徴を活用した多タスク学習によるキャプショニング
マルチモーダル
Text-to-Speech
Chopra, Anuradha, Roy, et al.
すべてが失われたわけではない:チェックポイントなしのLLM回復
Transformer
モデル学習
Blagoev, Nikolay, Ersoy, et al.
サンダイアル:高性能な時系列基礎モデルのファミリー
Transformer
モデリング
Yong Liu, Guo Qin, Zhiyuan Shi, et al.
ADRD: 規則に基づく意思決定システムを用いたLLM駆動の自動運転
LLM
Reasoning
Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, et al.
構造化指示によるチャートからコードの生成における改良された反復精緻化
コード生成
マルチモーダル
Chengzhi Xu, Yuyang Wang, Lai Wei, et al.
Show-o2: 改良されたネイティブ統一マルチモーダルモデル
Any-to-Any
マルチモーダル表現
Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
強化学習を用いたLLMの推論の再検討:クロスドメインの観点から
強化学習
Reasoning
Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.
Raptor: 3次元医療データのスケーラブルな学習不要埋め込みを実現する、事前学習済み2次元基盤モデルを活用した手法
Transformer
医療画像
Ulzee An, Moonseong Jeong, Simon Austin Lee, et al.
EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク
感情認識
データセット
Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.
s1:単純なテスト時スケーリング
監視付き微調整
Reasoning
Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.
Search-o1:エージェント型検索強化型大規模推論モデル
検索拡張生成
エージェント
Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.
LLaVA-Mini:1つのビジョントークンを用いた効率的な画像および動画大規模マルチモーダルモデル
マルチモーダル
Any-to-Any
Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.
MAmmoTH-VL:スケールにおける指示チューニングを用いたマルチモーダル推論の促進
マルチモーダル
Reasoning
Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.
ShowUI:GUI視覚エージェント向けのワンビジョン・言語・アクションモデル
マルチモーダル
画像理解
Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.
OS-ATLAS:汎用GUIエージェント向け基盤行動モデル
エージェント
データセット
Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.
GPT-4o システムカード
マルチモーダル
Any-to-Any
OpenAI, Aaron Hurst, Adam Lerer, et al.
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張
セマンティックセグメンテーション
オブジェクト追跡
Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.
アリア:オープンなマルチモーダルネイティブ・ミクスチャーオブエキスパートモデル
マルチモーダル
Any-to-Any
Dongxu Li, Yudong Liu, Haoning Wu, et al.
Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上
マルチモーダル
Any-to-Any
Peng Wang, Shuai Bai, Sinan Tan, et al.
VGGT: Visual Geometry Grounded Transformer VGGT: ビジュアル・ジオメトリ・グラウンデッド・トランスフォーマー
3D マシンビジョン
深度推定
Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.
単一ステップ報酬を用いたマルチターンコード生成
コード生成
強化学習
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.
1
42
43
44
45
46
47