HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
文化的知識を用いた多言語多モーダル大規模言語モデルの接地
視覚質問応答
LLM
Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.
HiFiTTS-2:大規模高帯域音声データセット
Text-to-Speech
合成
Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.
CryptoScope:大規模言語モデルを活用した暗号論的論理バグの自動検出
LLM
検索拡張生成
Zhihao Li, Zimo Ji, Tao Zheng, et al.
医療グラフRAG:グラフ検索拡張生成による安全な医療大規模言語モデルへの道
検索拡張生成
LLM
Junde Wu, Jiayuan Zhu, Yunli Qi, et al.
Puppeteer:3Dモデルのラギングおよびアニメーション化
3Dモデル
3D生成
Chaoyue Song, Xiu Li, Fan Yang, et al.
STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成
3D マシンビジョン
3D生成
Yushi Lan, Yihang Luo, Fangzhou Hong, et al.
序章:長文脈にわたる全体的理解と推論を要するベンチマーク
Reasoning
検索拡張生成
Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.
ToonComposer:生成後キーふりによるアニメ制作の効率化
画像から動画生成
画像間変換
Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.
NextStep-1:スケールにおける連続トークンを用いた自己回帰型画像生成へ
テキストから画像生成
画像生成
NextStep Team, Chunrui Han, Guopeng Li, et al.
We-Math 2.0:視覚的数学的推論を促進するための汎用数学書システム
Reasoning
データセット
Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.
COREVQA:クラウド観察と推論包含を備えた視覚質問応答ベンチマーク
視覚質問応答
ベンチマーク
Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.
RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み
Transformer
Any-to-Any
Wen Huang, Jiarui Yang, Tao Dai, et al.
GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転
Transformer
自動運転
Jian Wang, Chaokang Jiang, Haitao Xu
見る、聞く、覚える、推論する:長期記憶を備えたマルチモーダルエージェント
エージェント
Reasoning
Lin Long, Yichen He, Wentao Ye, et al.
拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる
LLM
拡散モデル
Xu Wang, Chenkai Xu, Yijie Jin, et al.
AWorld:安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決
エージェント
LLM
Zhitian Xie, Qintong Wu, Chengyue Yu, et al.
Story2Board:表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ
テキストから画像生成
画像生成
David Dinkevich, Matan Levy, Omri Avrahami, et al.
スタンドイン:動画生成のための軽量かつ即時接続型アイデンティティ制御
動画生成
画像から動画生成
Bowen Xue, Qixin Yan, Wenjing Wang, et al.
Mol-R1:分子発見における明示的長期CoT推論への挑戦
LLM
監視付き微調整
Jiatong Li, Weida Wang, Qinggang Zhang, et al.
Llama-Nemotron:効率的な推論モデル
LLM
Reasoning
Akhiad Bercovich, Itay Levy, Izik Golan, et al.
ドキュメントヘイストック:長文脈マルチモーダル画像/ドキュメント理解を対象としたビジョンLLMベンチマーク
ドキュメント理解
視覚ドキュメント検索
Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.
Echo-4o:GPT-4oによる合成画像の力を活用した画像生成の向上
テキストから画像生成
データセット
Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.
ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色
コンピュータビジョン
画像理解
Yijie Zhang, Luzhe Huang, Nir Pillar, et al.
VisCodex:視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成
コード生成
マルチモーダル表現
Lingjie Jiang, Shaohan Huang, Xun Wu, et al.
HierSearch:ローカル検索とWeb検索を統合した階層型エンタープライズディープサーチフレームワーク
検索拡張生成
エージェント
Jiejun Tan, Zhicheng Dou, Yan Yu, et al.
時刻は特徴である:拡散言語モデルにおける時系列ダイナミクスの活用
拡散モデル
Reasoning
Wen Wang, Bozhen Fang, Chenchen Jing, et al.
CharacterShot:制御可能かつ一貫性のある4Dキャラクターアニメーション
画像から動画生成
3D生成
Junyao Gao, Jiaxing Li, Wenran Liu, et al.
テンターンを越えて:大規模非同期強化学習を用いた長期的エージェント検索の解禁
強化学習
インテリジェントな質問応答
Jiaxuan Gao, Wei Fu, Minyang Xie, et al.
Matrix-3D:全方位探索可能な3D世界生成
3D生成
画像から動画生成
Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.
WebWatcher:視覚言語ディープリサーチエージェントの新たな地平を切り開く
視覚質問応答
マルチモーダル
Xinyu Geng, Peng Xia, Zhen Zhang, et al.
マルコボイス技術報告書
Text-to-Speech
Any-to-Any
Fengping Tian, Chenyang Lyu, Xuanfan Ni, et al.
Kimina-Proverプレビュー:強化学習を用いた大規模形式的推論モデルの構築へ
LLM
Reasoning
Haiming Wang, Mert Unsal, Xiaohan Lin, et al.
1
33
34
35
36
37
38
39
48
文化的知識を用いた多言語多モーダル大規模言語モデルの接地
視覚質問応答
LLM
Jean de Dieu Nyandwi, Yueqi Song, Simran Khanuja, et al.
HiFiTTS-2:大規模高帯域音声データセット
Text-to-Speech
合成
Ryan Langman, Xuesong Yang, Paarth Neekhara, et al.
CryptoScope:大規模言語モデルを活用した暗号論的論理バグの自動検出
LLM
検索拡張生成
Zhihao Li, Zimo Ji, Tao Zheng, et al.
医療グラフRAG:グラフ検索拡張生成による安全な医療大規模言語モデルへの道
検索拡張生成
LLM
Junde Wu, Jiayuan Zhu, Yunli Qi, et al.
Puppeteer:3Dモデルのラギングおよびアニメーション化
3Dモデル
3D生成
Chaoyue Song, Xiu Li, Fan Yang, et al.
STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成
3D マシンビジョン
3D生成
Yushi Lan, Yihang Luo, Fangzhou Hong, et al.
序章:長文脈にわたる全体的理解と推論を要するベンチマーク
Reasoning
検索拡張生成
Mo Yu, Tsz Ting Chung, Chulun Zhou, et al.
ToonComposer:生成後キーふりによるアニメ制作の効率化
画像から動画生成
画像間変換
Lingen Li, Guangzhi Wang, Zhaoyang Zhang, et al.
NextStep-1:スケールにおける連続トークンを用いた自己回帰型画像生成へ
テキストから画像生成
画像生成
NextStep Team, Chunrui Han, Guopeng Li, et al.
We-Math 2.0:視覚的数学的推論を促進するための汎用数学書システム
Reasoning
データセット
Runqi Qiao, Qiuna Tan, Peiqing Yang, et al.
COREVQA:クラウド観察と推論包含を備えた視覚質問応答ベンチマーク
視覚質問応答
ベンチマーク
Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, et al.
RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み
Transformer
Any-to-Any
Wen Huang, Jiarui Yang, Tao Dai, et al.
GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転
Transformer
自動運転
Jian Wang, Chaokang Jiang, Haitao Xu
見る、聞く、覚える、推論する:長期記憶を備えたマルチモーダルエージェント
エージェント
Reasoning
Lin Long, Yichen He, Wentao Ye, et al.
拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる
LLM
拡散モデル
Xu Wang, Chenkai Xu, Yijie Jin, et al.
AWorld:安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決
エージェント
LLM
Zhitian Xie, Qintong Wu, Chengyue Yu, et al.
Story2Board:表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ
テキストから画像生成
画像生成
David Dinkevich, Matan Levy, Omri Avrahami, et al.
スタンドイン:動画生成のための軽量かつ即時接続型アイデンティティ制御
動画生成
画像から動画生成
Bowen Xue, Qixin Yan, Wenjing Wang, et al.
Mol-R1:分子発見における明示的長期CoT推論への挑戦
LLM
監視付き微調整
Jiatong Li, Weida Wang, Qinggang Zhang, et al.
Llama-Nemotron:効率的な推論モデル
LLM
Reasoning
Akhiad Bercovich, Itay Levy, Izik Golan, et al.
ドキュメントヘイストック:長文脈マルチモーダル画像/ドキュメント理解を対象としたビジョンLLMベンチマーク
ドキュメント理解
視覚ドキュメント検索
Goeric Huybrechts, Srikanth Ronanki, Sai Muralidhar Jayanthi, et al.
Echo-4o:GPT-4oによる合成画像の力を活用した画像生成の向上
テキストから画像生成
データセット
Junyan Ye, Dongzhi Jiang, Zihao Wang, et al.
ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色
コンピュータビジョン
画像理解
Yijie Zhang, Luzhe Huang, Nir Pillar, et al.
VisCodex:視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成
コード生成
マルチモーダル表現
Lingjie Jiang, Shaohan Huang, Xun Wu, et al.
HierSearch:ローカル検索とWeb検索を統合した階層型エンタープライズディープサーチフレームワーク
検索拡張生成
エージェント
Jiejun Tan, Zhicheng Dou, Yan Yu, et al.
時刻は特徴である:拡散言語モデルにおける時系列ダイナミクスの活用
拡散モデル
Reasoning
Wen Wang, Bozhen Fang, Chenchen Jing, et al.
CharacterShot:制御可能かつ一貫性のある4Dキャラクターアニメーション
画像から動画生成
3D生成
Junyao Gao, Jiaxing Li, Wenran Liu, et al.
テンターンを越えて:大規模非同期強化学習を用いた長期的エージェント検索の解禁
強化学習
インテリジェントな質問応答
Jiaxuan Gao, Wei Fu, Minyang Xie, et al.
Matrix-3D:全方位探索可能な3D世界生成
3D生成
画像から動画生成
Zhongqi Yang, Wenhang Ge, Yuqi Li, et al.
WebWatcher:視覚言語ディープリサーチエージェントの新たな地平を切り開く
視覚質問応答
マルチモーダル
Xinyu Geng, Peng Xia, Zhen Zhang, et al.
マルコボイス技術報告書
Text-to-Speech
Any-to-Any
Fengping Tian, Chenyang Lyu, Xuanfan Ni, et al.
Kimina-Proverプレビュー:強化学習を用いた大規模形式的推論モデルの構築へ
LLM
Reasoning
Haiming Wang, Mert Unsal, Xiaohan Lin, et al.
1
33
34
35
36
37
38
39
48