HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

時間的な摩擦と裁判所の結果：2020–2024年におけるクック郡の刑事判決における時間遅延の影響分析

時間的な摩擦と裁判所の結果：2020–2024年におけるクック郡の刑事判決における時間遅延の影響分析

データセット

モデリング

メタRLは言語エージェントにおける探索を誘発する

メタRLは言語エージェントにおける探索を誘発する

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache：Transformer推論における高速再利用のための階層的キャッシュ戦略

Harsh Vardhan Bansal

OPENTOUCH：現実世界のインタラクションにフルハンドタッチをもたらす

マルチモーダル

ビデオ理解

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench：動画理解におけるマルチモーダル報酬モデルの包括的評価

ビデオ理解

視覚質問応答

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

ソウル：高精度な長期マルチモーダルアニメーションのためのデジタル人間への生命の息吹き

画像から動画生成

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench：生成視覚を用いた赤外線画像におけるMLLMのベンチマーク評価と性能向上

視覚質問応答

ベンチマーク

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 技ical Report

Chao Yi, Dian Chen, Gaoyang Guo, et al.

ベクトルプリズム：意味構造の階層化によるベクトルグラフィックスのアニメーション化

テキストから動画

Jooyeol Yun, Jaegul Choo

OpenDataArena：ポストトレーニングデータセット価値のベンチマーク評価のための公正でオープンなアリーナ

オープンソース

Mengzhang Cai, Xin Gao, Yu Li, et al.

ビデオリアリティテスト：AI生成ASMR動画はVLMおよび人間を欺くことができるか？

マルチモーダル

ビデオ処理

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay：リアルタイムインタラクティブなワールドモデリングにおける長期的幾何学的一貫性の実現へ

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR：マルチモーダル・ジェネレーティブ・リーズニング

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

フロンティアサイエンス：AIが専門家レベルの科学的タスクを実行する能力の評価

ベンチマーク

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

FACTS Leaderboard：大規模言語モデルの事実性を評価する包括的なベンチマーク

ベンチマーク

検索拡張生成

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

Nemotron-Cascade：汎用推論モデル向けカスケード強化学習のスケーリング

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

KlingAvatar 2.0 技術報告

テキストから動画

Kling Team, Jialu Chen, Yikang Ding, et al.

QwenLong-L1.5：長文脈推論およびメモリ管理のためのポストトレーニングレシピ

監視付き微調整

Weizhou Shen, Ziyi Yang, Chenliang Li, et al.

ReFusion：並列自己回帰デコーディングを備えた拡散大規模言語モデル

拡散モデル

Jia-Nan Li, Jian Guan, Wei Wu, et al.

エラーフリーな線形アテンションはフリーランチである：連続時間ダイナミクスからの正確な解

Jingdi Lei, Di Zhang, Soujanya Poria

AIエージェントの時代における記憶

エージェント

検索拡張生成

Yuyang Hu, Shichun Liu, Yanwei Yue, et al.

LongVie 2：マルチモーダル制御可能 Ultra-Long Video World Model

マルチモーダル

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

FirstAidQA：低接続環境における救急対応向けの合成データセット

データセット

監視付き微調整

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

CUDA-L2：強化学習を活用した行列積演算におけるcuBLASを凌駕する性能

高性能計算

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

X-VLA：スケーラブルなクロスエン bodiment 視覚言語行動モデルとしてのソフトプロンプト付きトランスフォーマー

ロボティクス

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Nemotron 3 Nano：エージェンティックな推論向けに最適化されたオープンで効率的なMixture-of-Experts型ハイブリッドMamba-Transformerモデル

監視付き微調整

トラッキングからの構造：動画生成のための構造保存型運動の蒸留

拡散モデル

Yang Fei, George Stoica, Jingyuan Liu, et al.

MetaCanvasを用いたMLLM-Diffusion間情報伝達の探求

拡散モデル

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive! ライブストリーミング向け表現力豊かなポートレート画像アニメーション

拡散モデル

画像から動画生成

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX：内在特性に対する正確な制御を備えた動画編集

ビデオ処理

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I：変分自己符号化器を用いずにテキストから画像への潜在拡散モデルのスケーリングアップ

テキストから画像生成

拡散モデル

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT：歯科におけるマルチモーダルな複雑な推論を促進するためのアプローチ

視覚質問応答

マルチモーダル表現

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

時間的な摩擦と裁判所の結果：2020–2024年におけるクック郡の刑事判決における時間遅延の影響分析

時間的な摩擦と裁判所の結果：2020–2024年におけるクック郡の刑事判決における時間遅延の影響分析

データセット

モデリング

メタRLは言語エージェントにおける探索を誘発する

メタRLは言語エージェントにおける探索を誘発する

Yulun Jiang, Liangze Jiang, Damien Teney, et al.

LLMCache：Transformer推論における高速再利用のための階層的キャッシュ戦略

Harsh Vardhan Bansal

OPENTOUCH：現実世界のインタラクションにフルハンドタッチをもたらす

マルチモーダル

ビデオ理解

Yuxin Ray Song, Jinzhou Li, Rao Fu, et al.

VideoRewardBench：動画理解におけるマルチモーダル報酬モデルの包括的評価

ビデオ理解

視覚質問応答

Zhihong Zhang, Xiaojian Huang, Jin Xu, et al.

ソウル：高精度な長期マルチモーダルアニメーションのためのデジタル人間への生命の息吹き

画像から動画生成

Jiangning Zhang, Junwei Zhu, Zhenye Gan, et al.

IF-Bench：生成視覚を用いた赤外線画像におけるMLLMのベンチマーク評価と性能向上

視覚質問応答

ベンチマーク

Tao Zhang, Yuyang Hong, Yang Xia, et al.

RecGPT-V2 技ical Report

Chao Yi, Dian Chen, Gaoyang Guo, et al.

ベクトルプリズム：意味構造の階層化によるベクトルグラフィックスのアニメーション化

テキストから動画

Jooyeol Yun, Jaegul Choo

OpenDataArena：ポストトレーニングデータセット価値のベンチマーク評価のための公正でオープンなアリーナ

オープンソース

Mengzhang Cai, Xin Gao, Yu Li, et al.

ビデオリアリティテスト：AI生成ASMR動画はVLMおよび人間を欺くことができるか？

マルチモーダル

ビデオ処理

Jiaqi Wang, Weijia Wu, Yi Zhan, et al.

WorldPlay：リアルタイムインタラクティブなワールドモデリングにおける長期的幾何学的一貫性の実現へ

Wenqiang Sun, Haiyu Zhang, Haoyuan Wang, et al.

MMGR：マルチモーダル・ジェネレーティブ・リーズニング

Zefan Cai, Haoyi Qiu, Tianyi Ma, et al.

フロンティアサイエンス：AIが専門家レベルの科学的タスクを実行する能力の評価

ベンチマーク

Miles Wang, Joy Jiao, Neil Chowdhury, et al.

FACTS Leaderboard：大規模言語モデルの事実性を評価する包括的なベンチマーク

ベンチマーク

検索拡張生成

Aileen Cheng, Alon Jacovi, Amir Globerson, et al.

Nemotron-Cascade：汎用推論モデル向けカスケード強化学習のスケーリング

Boxin Wang, Chankyu Lee, Nayeon Lee, et al.

KlingAvatar 2.0 技術報告

テキストから動画

Kling Team, Jialu Chen, Yikang Ding, et al.

QwenLong-L1.5：長文脈推論およびメモリ管理のためのポストトレーニングレシピ

監視付き微調整

Weizhou Shen, Ziyi Yang, Chenliang Li, et al.

ReFusion：並列自己回帰デコーディングを備えた拡散大規模言語モデル

拡散モデル

Jia-Nan Li, Jian Guan, Wei Wu, et al.

エラーフリーな線形アテンションはフリーランチである：連続時間ダイナミクスからの正確な解

Jingdi Lei, Di Zhang, Soujanya Poria

AIエージェントの時代における記憶

エージェント

検索拡張生成

Yuyang Hu, Shichun Liu, Yanwei Yue, et al.

LongVie 2：マルチモーダル制御可能 Ultra-Long Video World Model

マルチモーダル

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

FirstAidQA：低接続環境における救急対応向けの合成データセット

データセット

監視付き微調整

Saiyma Sittul Muna, Rezwan Islam Salvi, Mushfiqur Rahman Mushfique, et al.

CUDA-L2：強化学習を活用した行列積演算におけるcuBLASを凌駕する性能

高性能計算

Songqiao Su, Xiaofei Sun, Xiaoya Li, et al.

X-VLA：スケーラブルなクロスエン bodiment 視覚言語行動モデルとしてのソフトプロンプト付きトランスフォーマー

ロボティクス

Jinliang Zheng, Jianxiong Li, Zhihao Wang, et al.

Nemotron 3 Nano：エージェンティックな推論向けに最適化されたオープンで効率的なMixture-of-Experts型ハイブリッドMamba-Transformerモデル

監視付き微調整

トラッキングからの構造：動画生成のための構造保存型運動の蒸留

拡散モデル

Yang Fei, George Stoica, Jingyuan Liu, et al.

MetaCanvasを用いたMLLM-Diffusion間情報伝達の探求

拡散モデル

Han Lin, Xichen Pan, Ziqi Huang, et al.

PersonaLive! ライブストリーミング向け表現力豊かなポートレート画像アニメーション

拡散モデル

画像から動画生成

Zhiyuan Li, Chi-Man Pun, Chen Fang, et al.

V-RGBX：内在特性に対する正確な制御を備えた動画編集

ビデオ処理

Ye Fang, Tong Wu, Valentin Deschaintre, et al.

SVG-T2I：変分自己符号化器を用いずにテキストから画像への潜在拡散モデルのスケーリングアップ

テキストから画像生成

拡散モデル

Minglei Shi, Haolin Wang, Borui Zhang, et al.

DentalGPT：歯科におけるマルチモーダルな複雑な推論を促進するためのアプローチ

視覚質問応答

マルチモーダル表現

Zhenyang Cai, Jiaming Zhang, Junjie Zhao, et al.

LLMCache：Transformer推論における高速再利用のための階層的キャッシュ戦略

OPENTOUCH：現実世界のインタラクションにフルハンドタッチをもたらす

VideoRewardBench：動画理解におけるマルチモーダル報酬モデルの包括的評価

ソウル：高精度な長期マルチモーダルアニメーションのためのデジタル人間への生命の息吹き

IF-Bench：生成視覚を用いた赤外線画像におけるMLLMのベンチマーク評価と性能向上

RecGPT-V2 技ical Report

ベクトルプリズム：意味構造の階層化によるベクトルグラフィックスのアニメーション化

OpenDataArena：ポストトレーニングデータセット価値のベンチマーク評価のための公正でオープンなアリーナ

ビデオリアリティテスト：AI生成ASMR動画はVLMおよび人間を欺くことができるか？

WorldPlay：リアルタイムインタラクティブなワールドモデリングにおける長期的幾何学的一貫性の実現へ

MMGR：マルチモーダル・ジェネレーティブ・リーズニング

フロンティアサイエンス：AIが専門家レベルの科学的タスクを実行する能力の評価

FACTS Leaderboard：大規模言語モデルの事実性を評価する包括的なベンチマーク

Nemotron-Cascade：汎用推論モデル向けカスケード強化学習のスケーリング

KlingAvatar 2.0 技術報告

QwenLong-L1.5：長文脈推論およびメモリ管理のためのポストトレーニングレシピ

ReFusion：並列自己回帰デコーディングを備えた拡散大規模言語モデル

エラーフリーな線形アテンションはフリーランチである：連続時間ダイナミクスからの正確な解

AIエージェントの時代における記憶

LongVie 2：マルチモーダル制御可能 Ultra-Long Video World Model

FirstAidQA：低接続環境における救急対応向けの合成データセット

CUDA-L2：強化学習を活用した行列積演算におけるcuBLASを凌駕する性能

X-VLA：スケーラブルなクロスエン bodiment 視覚言語行動モデルとしてのソフトプロンプト付きトランスフォーマー

Nemotron 3 Nano：エージェンティックな推論向けに最適化されたオープンで効率的なMixture-of-Experts型ハイブリッドMamba-Transformerモデル

トラッキングからの構造：動画生成のための構造保存型運動の蒸留

MetaCanvasを用いたMLLM-Diffusion間情報伝達の探求

PersonaLive! ライブストリーミング向け表現力豊かなポートレート画像アニメーション

V-RGBX：内在特性に対する正確な制御を備えた動画編集

SVG-T2I：変分自己符号化器を用いずにテキストから画像への潜在拡散モデルのスケーリングアップ

DentalGPT：歯科におけるマルチモーダルな複雑な推論を促進するためのアプローチ

LLMCache：Transformer推論における高速再利用のための階層的キャッシュ戦略

OPENTOUCH：現実世界のインタラクションにフルハンドタッチをもたらす

VideoRewardBench：動画理解におけるマルチモーダル報酬モデルの包括的評価

ソウル：高精度な長期マルチモーダルアニメーションのためのデジタル人間への生命の息吹き

IF-Bench：生成視覚を用いた赤外線画像におけるMLLMのベンチマーク評価と性能向上

RecGPT-V2 技ical Report

ベクトルプリズム：意味構造の階層化によるベクトルグラフィックスのアニメーション化

OpenDataArena：ポストトレーニングデータセット価値のベンチマーク評価のための公正でオープンなアリーナ

ビデオリアリティテスト：AI生成ASMR動画はVLMおよび人間を欺くことができるか？

WorldPlay：リアルタイムインタラクティブなワールドモデリングにおける長期的幾何学的一貫性の実現へ

MMGR：マルチモーダル・ジェネレーティブ・リーズニング

フロンティアサイエンス：AIが専門家レベルの科学的タスクを実行する能力の評価

FACTS Leaderboard：大規模言語モデルの事実性を評価する包括的なベンチマーク

Nemotron-Cascade：汎用推論モデル向けカスケード強化学習のスケーリング

KlingAvatar 2.0 技術報告

QwenLong-L1.5：長文脈推論およびメモリ管理のためのポストトレーニングレシピ

ReFusion：並列自己回帰デコーディングを備えた拡散大規模言語モデル

エラーフリーな線形アテンションはフリーランチである：連続時間ダイナミクスからの正確な解

AIエージェントの時代における記憶

LongVie 2：マルチモーダル制御可能 Ultra-Long Video World Model

FirstAidQA：低接続環境における救急対応向けの合成データセット

CUDA-L2：強化学習を活用した行列積演算におけるcuBLASを凌駕する性能

X-VLA：スケーラブルなクロスエン bodiment 視覚言語行動モデルとしてのソフトプロンプト付きトランスフォーマー

Nemotron 3 Nano：エージェンティックな推論向けに最適化されたオープンで効率的なMixture-of-Experts型ハイブリッドMamba-Transformerモデル

トラッキングからの構造：動画生成のための構造保存型運動の蒸留

MetaCanvasを用いたMLLM-Diffusion間情報伝達の探求

PersonaLive! ライブストリーミング向け表現力豊かなポートレート画像アニメーション

V-RGBX：内在特性に対する正確な制御を備えた動画編集

SVG-T2I：変分自己符号化器を用いずにテキストから画像への潜在拡散モデルのスケーリングアップ

DentalGPT：歯科におけるマルチモーダルな複雑な推論を促進するためのアプローチ