HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
ADRD: 規則に基づく意思決定システムを用いたLLM駆動の自動運転
LLM
Reasoning
Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, et al.
構造化指示によるチャートからコードの生成における改良された反復精緻化
コード生成
マルチモーダル
Chengzhi Xu, Yuyang Wang, Lai Wei, et al.
Show-o2: 改良されたネイティブ統一マルチモーダルモデル
Any-to-Any
マルチモーダル表現
Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
強化学習を用いたLLMの推論の再検討:クロスドメインの観点から
強化学習
Reasoning
Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.
Raptor: 3次元医療データのスケーラブルな学習不要埋め込みを実現する、事前学習済み2次元基盤モデルを活用した手法
Transformer
医療画像
Ulzee An, Moonseong Jeong, Simon Austin Lee, et al.
EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク
感情認識
データセット
Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.
s1:単純なテスト時スケーリング
監視付き微調整
Reasoning
Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.
Search-o1:エージェント型検索強化型大規模推論モデル
検索拡張生成
エージェント
Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.
LLaVA-Mini:1つのビジョントークンを用いた効率的な画像および動画大規模マルチモーダルモデル
マルチモーダル
Any-to-Any
Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.
MAmmoTH-VL:スケールにおける指示チューニングを用いたマルチモーダル推論の促進
マルチモーダル
Reasoning
Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.
ShowUI:GUI視覚エージェント向けのワンビジョン・言語・アクションモデル
マルチモーダル
画像理解
Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.
OS-ATLAS:汎用GUIエージェント向け基盤行動モデル
エージェント
データセット
Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.
GPT-4o システムカード
マルチモーダル
Any-to-Any
OpenAI, Aaron Hurst, Adam Lerer, et al.
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張
セマンティックセグメンテーション
オブジェクト追跡
Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.
アリア:オープンなマルチモーダルネイティブ・ミクスチャーオブエキスパートモデル
マルチモーダル
Any-to-Any
Dongxu Li, Yudong Liu, Haoning Wu, et al.
Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上
マルチモーダル
Any-to-Any
Peng Wang, Shuai Bai, Sinan Tan, et al.
VGGT: Visual Geometry Grounded Transformer VGGT: ビジュアル・ジオメトリ・グラウンデッド・トランスフォーマー
3D マシンビジョン
深度推定
Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.
単一ステップ報酬を用いたマルチターンコード生成
コード生成
強化学習
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.
大規模言語モデルの構成的一般化能力を命令文理解能力を考慮して再検討する
LLM
ベンチマーク
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe
具現化ウェブエージェント:物理デジタル領域を橋渡しする統合エージェント知能
エムボディドインテリジェンス
Reasoning
Yining Hong, Rui Sun, Bingxuan Li, et al.
意味を理解した報酬の体系:自由形式生成におけるオープンエンドR1トレーニング向け
Preference Modeling
テキスト生成
Zongxia Li, Yapei Chang, Yuhang Zhou, et al.
BUTシステムのMLC-SLMチャレンジへの適用
音声および音声処理
マルチタスク学習
Alexander Polok, Jiangyu Han, Dominik Klement, et al.
GenRecal: 大規模から小規模への再校正後の生成 言語-視覚モデル
Any-to-Any
LLM
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, et al.
ProtoReasoning: プロトタイプを基盤とするLLMにおける一般化可能な推論
LLM
Reasoning
Feng He, Zijun Chen, Xinnian Liang, et al.
世界探査向けビデオデータセット:Sekai
ビデオ理解
Video Captioning
Zhen Li, Chuanhao Li, Xiaofeng Mao, et al.
QFFT、Question-Free Fine-Tuning for Adaptive Reasoning
監視付き微調整
Reasoning
Wanlong Liu, Junxiao Xu, Fei Yu, et al.
大規模言語モデル(LLM)はアルゴリズム問題のための高品質なテストケースを生成できるか? TestCase-Eval: 故障カバレッジとエクスポージャの体系的な評価
LLM
コード生成
Zheyuan Yang, Zexi Kuang, Xue Xia, et al.
AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー
監視付き微調整
ベンチマーク
Zihan Liu, Zhuolin Yang, Yang Chen, et al.
ストリーム・オムニ:大規模言語-視覚-音声モデルを用いた同時多モーダル相互作用
マルチモーダル
Any-to-Any
Shaolei Zhang, Shoutao Guo, Qingkai Fang, et al.
強化学習を用いた効率的な医療VIE
ドキュメント理解
マルチモーダル
Lijun Liu, Ruiyang Li, Zhaocheng Liu, et al.
テスト時の計算量をスケーリングするLLMエージェント
エージェント
Reasoning
King Zhu, Hanhao Li, Siwei Wu, et al.
TaskCraft: エージェンティックタスクの自動生成
エージェント
Reasoning
Shi, Dingfeng, Cao, et al.
1
44
45
46
47
48
49
ADRD: 規則に基づく意思決定システムを用いたLLM駆動の自動運転
LLM
Reasoning
Fanzhi Zeng, Siqi Wang, Chuzhao Zhu, et al.
構造化指示によるチャートからコードの生成における改良された反復精緻化
コード生成
マルチモーダル
Chengzhi Xu, Yuyang Wang, Lai Wei, et al.
Show-o2: 改良されたネイティブ統一マルチモーダルモデル
Any-to-Any
マルチモーダル表現
Jinheng Xie, Zhenheng Yang, Mike Zheng Shou
強化学習を用いたLLMの推論の再検討:クロスドメインの観点から
強化学習
Reasoning
Zhoujun Cheng, Shibo Hao, Tianyang Liu, et al.
Raptor: 3次元医療データのスケーラブルな学習不要埋め込みを実現する、事前学習済み2次元基盤モデルを活用した手法
Transformer
医療画像
Ulzee An, Moonseong Jeong, Simon Austin Lee, et al.
EmoNet-Voice: 音声感情検出のための細かい粒度で専門家が確認したベンチマーク
感情認識
データセット
Christoph Schuhmann, Robert Kaczmarczyk, Gollam Rabby, et al.
s1:単純なテスト時スケーリング
監視付き微調整
Reasoning
Niklas Muennighoff, Zitong Yang, Weijia Shi, et al.
Search-o1:エージェント型検索強化型大規模推論モデル
検索拡張生成
エージェント
Xiaoxi Li, Guanting Dong, Jiajie Jin, et al.
LLaVA-Mini:1つのビジョントークンを用いた効率的な画像および動画大規模マルチモーダルモデル
マルチモーダル
Any-to-Any
Shaolei Zhang, Qingkai Fang, Zhe Yang, et al.
MAmmoTH-VL:スケールにおける指示チューニングを用いたマルチモーダル推論の促進
マルチモーダル
Reasoning
Jarvis Guo, Tuney Zheng, Yuelin Bai, et al.
ShowUI:GUI視覚エージェント向けのワンビジョン・言語・アクションモデル
マルチモーダル
画像理解
Kevin Qinghong Lin, Linjie Li, Difei Gao, et al.
OS-ATLAS:汎用GUIエージェント向け基盤行動モデル
エージェント
データセット
Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, et al.
GPT-4o システムカード
マルチモーダル
Any-to-Any
OpenAI, Aaron Hurst, Adam Lerer, et al.
SAM2Long:トレーニング不要メモリツリーを用いたSAM 2の長期動画セグメンテーションへの拡張
セマンティックセグメンテーション
オブジェクト追跡
Shuangrui Ding, Rui Qian, Xiaoyi Dong, et al.
アリア:オープンなマルチモーダルネイティブ・ミクスチャーオブエキスパートモデル
マルチモーダル
Any-to-Any
Dongxu Li, Yudong Liu, Haoning Wu, et al.
Qwen2-VL:任意解像度における視覚言語モデルの世界認識能力の向上
マルチモーダル
Any-to-Any
Peng Wang, Shuai Bai, Sinan Tan, et al.
VGGT: Visual Geometry Grounded Transformer VGGT: ビジュアル・ジオメトリ・グラウンデッド・トランスフォーマー
3D マシンビジョン
深度推定
Jianyuan Wang, Minghao Chen, Nikita Karaev, et al.
単一ステップ報酬を用いたマルチターンコード生成
コード生成
強化学習
Arnav Kumar Jain, Gonzalo Gonzalez-Pumariega, Wayne Chen, et al.
大規模言語モデルの構成的一般化能力を命令文理解能力を考慮して再検討する
LLM
ベンチマーク
Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe
具現化ウェブエージェント:物理デジタル領域を橋渡しする統合エージェント知能
エムボディドインテリジェンス
Reasoning
Yining Hong, Rui Sun, Bingxuan Li, et al.
意味を理解した報酬の体系:自由形式生成におけるオープンエンドR1トレーニング向け
Preference Modeling
テキスト生成
Zongxia Li, Yapei Chang, Yuhang Zhou, et al.
BUTシステムのMLC-SLMチャレンジへの適用
音声および音声処理
マルチタスク学習
Alexander Polok, Jiangyu Han, Dominik Klement, et al.
GenRecal: 大規模から小規模への再校正後の生成 言語-視覚モデル
Any-to-Any
LLM
Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro, et al.
ProtoReasoning: プロトタイプを基盤とするLLMにおける一般化可能な推論
LLM
Reasoning
Feng He, Zijun Chen, Xinnian Liang, et al.
世界探査向けビデオデータセット:Sekai
ビデオ理解
Video Captioning
Zhen Li, Chuanhao Li, Xiaofeng Mao, et al.
QFFT、Question-Free Fine-Tuning for Adaptive Reasoning
監視付き微調整
Reasoning
Wanlong Liu, Junxiao Xu, Fei Yu, et al.
大規模言語モデル(LLM)はアルゴリズム問題のための高品質なテストケースを生成できるか? TestCase-Eval: 故障カバレッジとエクスポージャの体系的な評価
LLM
コード生成
Zheyuan Yang, Zexi Kuang, Xue Xia, et al.
AceReason-Nemotron 1.1: 数学とコード推論の進歩を図るSFTとRLのシナジー
監視付き微調整
ベンチマーク
Zihan Liu, Zhuolin Yang, Yang Chen, et al.
ストリーム・オムニ:大規模言語-視覚-音声モデルを用いた同時多モーダル相互作用
マルチモーダル
Any-to-Any
Shaolei Zhang, Shoutao Guo, Qingkai Fang, et al.
強化学習を用いた効率的な医療VIE
ドキュメント理解
マルチモーダル
Lijun Liu, Ruiyang Li, Zhaocheng Liu, et al.
テスト時の計算量をスケーリングするLLMエージェント
エージェント
Reasoning
King Zhu, Hanhao Li, Siwei Wu, et al.
TaskCraft: エージェンティックタスクの自動生成
エージェント
Reasoning
Shi, Dingfeng, Cao, et al.
1
44
45
46
47
48
49