HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

VOccl3D：現実の遮蔽下における3次元人体ポーズおよび形状推定のための動画ベンチマークデータセット

VOccl3D：現実の遮蔽下における3次元人体ポーズおよび形状推定のための動画ベンチマークデータセット

ビデオ理解

オブジェクト検出

Yash Garg, Saketh Bachu, Arindam Dutta, et al.

アルパマヨ-R1：長尾領域における汎用的な自動運転のための推論と行動予測の統合

アルパマヨ-R1：長尾領域における汎用的な自動運転のための推論と行動予測の統合

NVIDIA, Yulong Cao, Tong Che, et al.

すべてはつながっている：テスト時記憶化、注意バイアス、保持、オンライン最適化をめぐる旅

ニューラルネットワーク

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.

推論時スケーリングにおけるテキストから視覚生成へのプロンプト設計の再考

テキストから画像生成

拡散モデル

Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.

推論時スケーリングアプローチとしての視覚言語行動モデルのステアリング：探索の逆効果

監視付き微調整

Siyuan Yang, Yang Zhang, Haoran He, et al.

OneThinker：画像および動画向けの一体型推論モデル

視覚質問応答

マルチタスク学習

Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.

ViDiC：ビデオ差分キャプション

Video Captioning

マルチモーダル

Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.

PretrainZero：強化学習を用いたアクティブ事前学習

Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.

すべてのトークンが重要である：大規模言語モデルにおける1600万トークン超の長文脈の一般化

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.

SimScale：スケールにおける現実世界シミュレーションを用いたドライブ学習

Haochen Tian, Tianyu Li, Haochen Liu, et al.

Skywork-R1V4：画像とDeepResearchを用いたインタリーブド・シンキングによるエージェント型マルチモーダル知能への挑戦

エージェント

検索拡張生成

Yifan Zhang, Liang Hu, Haofeng Sun, et al.

最小限の人的監視によるガイド付き自己進化型LLM

Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.

MultiShotMaster：制御可能なマルチショット動画生成フレームワーク

テキストから動画

Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.

MG-Nav：スパース空間記憶を用いたデュアルスケール視覚ナビゲーション

コンピュータビジョン

オブジェクト検出

Bo Wang, Jiehong Lin, Chenzhi Liu, et al.

コンシステンシー・クリティック：リファレンス誘導型アテンティブアライメントを用いた生成画像内の不整合の修正

画像間変換

Ziheng Ouyang, Yiren Song, Yaoli Liu, et al.

深層学習を用いた実用的な研究エージェントは、果たしてどの程度現実のものに近づいているのか？

ベンチマーク

データセット

Dingling Zhang, He Zhu, Jincheng Ren, et al.

LLMを用いた強化学習の安定化：定式化と実践

Chujie Zheng, Kai Dang, Bowen Yu, et al.

Envision：因果的世界プロセスインサイトにおける統一的理解・生成のベンチマーク

テキストから画像生成

Juanxi Tian, Siyuan Li, Conghui He, et al.

LongVT：ネイティブ・ツールコールによる「長時間動画を用いた思考」のインセンティブ化

ビデオ理解

視覚質問応答

Zuhao Yang, Sudong Wang, Kaichen Zhang, et al.

コード基盤モデルからエージェントおよびアプリケーションへ：コードインテリジェンス実践ガイド

監視付き微調整

Jian Yang, Wei Zhang, Shark Liu, et al.

物理駆動型時空間モデルによるAI生成動画検出

ビデオ理解

Shuhai Zhang, ZiHao Lian, Jiahao Yang, et al.

Mem-α：強化学習を用いたメモリ構築の学習

エージェント

Yu Wang, Ryuichi Takanobu, Zhiqi Liang, et al.

自己対戦による探索：教師なしでエージェント能力の限界を押し広げる

エージェント

Hongliang Lu, Yuhang Wen, Pengyu Cheng, et al.

CudaForge：ハードウェアフィードバックを活用したCUDAカーネル最適化向けエージェントフレームワーク

コード生成

Zijian Zhang, Rong Wang, Shiyang Li, et al.

ScaleNet：増分パラメータを用いた事前学習ニューラルネットワークのスケーリング

ニューラルネットワーク

Zhiwei Hao, Jianyuan Guo, Li Shen, et al.

ブロック注意の混合最適化

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

フラクタルフォレンジックス：フラクタルウォーターマークを用いたプロアクティブなディープフェイク検出と局所化

コンピュータビジョン

ディープラーニング

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

チェーン・オブ・シンク・ハイジャッキング

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

InstanceAssemble：インスタンスアセンブリーアテンションを用いたレイアウト認識型画像生成

拡散モデル

テキストから画像生成

Qiang Xiang, Shuang Sun, Binglei Li, et al.

3EED：3次元空間におけるあらゆるものを基礎化する

3D マシンビジョン

マルチモーダル

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

DetectiumFire：視覚と言語を橋渡しする火災理解のための包括的なマルチモーダルデータセット

マルチモーダル

ビデオ理解

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

CHIP：産業現場における椅子の6次元姿勢推定のためのマルチセンサデータセット

3D マシンビジョン

ロボティクス

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

VOccl3D：現実の遮蔽下における3次元人体ポーズおよび形状推定のための動画ベンチマークデータセット

VOccl3D：現実の遮蔽下における3次元人体ポーズおよび形状推定のための動画ベンチマークデータセット

ビデオ理解

オブジェクト検出

Yash Garg, Saketh Bachu, Arindam Dutta, et al.

アルパマヨ-R1：長尾領域における汎用的な自動運転のための推論と行動予測の統合

アルパマヨ-R1：長尾領域における汎用的な自動運転のための推論と行動予測の統合

NVIDIA, Yulong Cao, Tong Che, et al.

すべてはつながっている：テスト時記憶化、注意バイアス、保持、オンライン最適化をめぐる旅

ニューラルネットワーク

Ali Behrouz, Meisam Razaviyayn, Peilin Zhong, et al.

推論時スケーリングにおけるテキストから視覚生成へのプロンプト設計の再考

テキストから画像生成

拡散モデル

Subin Kim, Sangwoo Mo, Mamshad Nayeem Rizve, et al.

推論時スケーリングアプローチとしての視覚言語行動モデルのステアリング：探索の逆効果

監視付き微調整

Siyuan Yang, Yang Zhang, Haoran He, et al.

OneThinker：画像および動画向けの一体型推論モデル

視覚質問応答

マルチタスク学習

Kaituo Feng, Manyuan Zhang, Hongyu Li, et al.

ViDiC：ビデオ差分キャプション

Video Captioning

マルチモーダル

Jiangtao Wu, Shihao Li, Zhaozhou Bian, et al.

PretrainZero：強化学習を用いたアクティブ事前学習

Xingrun Xing, Zhiyuan Fan, Jie Lou, et al.

すべてのトークンが重要である：大規模言語モデルにおける1600万トークン超の長文脈の一般化

Xiang Hu, Zhanchao Zhou, Ruiqi Liang, et al.

SimScale：スケールにおける現実世界シミュレーションを用いたドライブ学習

Haochen Tian, Tianyu Li, Haochen Liu, et al.

Skywork-R1V4：画像とDeepResearchを用いたインタリーブド・シンキングによるエージェント型マルチモーダル知能への挑戦

エージェント

検索拡張生成

Yifan Zhang, Liang Hu, Haofeng Sun, et al.

最小限の人的監視によるガイド付き自己進化型LLM

Wenhao Yu, Zhenwen Liang, Chengsong Huang, et al.

MultiShotMaster：制御可能なマルチショット動画生成フレームワーク

テキストから動画

Qinghe Wang, Xiaoyu Shi, Baolu Li, et al.

MG-Nav：スパース空間記憶を用いたデュアルスケール視覚ナビゲーション

コンピュータビジョン

オブジェクト検出

Bo Wang, Jiehong Lin, Chenzhi Liu, et al.

コンシステンシー・クリティック：リファレンス誘導型アテンティブアライメントを用いた生成画像内の不整合の修正

画像間変換

Ziheng Ouyang, Yiren Song, Yaoli Liu, et al.

深層学習を用いた実用的な研究エージェントは、果たしてどの程度現実のものに近づいているのか？

ベンチマーク

データセット

Dingling Zhang, He Zhu, Jincheng Ren, et al.

LLMを用いた強化学習の安定化：定式化と実践

Chujie Zheng, Kai Dang, Bowen Yu, et al.

Envision：因果的世界プロセスインサイトにおける統一的理解・生成のベンチマーク

テキストから画像生成

Juanxi Tian, Siyuan Li, Conghui He, et al.

LongVT：ネイティブ・ツールコールによる「長時間動画を用いた思考」のインセンティブ化

ビデオ理解

視覚質問応答

Zuhao Yang, Sudong Wang, Kaichen Zhang, et al.

コード基盤モデルからエージェントおよびアプリケーションへ：コードインテリジェンス実践ガイド

監視付き微調整

Jian Yang, Wei Zhang, Shark Liu, et al.

物理駆動型時空間モデルによるAI生成動画検出

ビデオ理解

Shuhai Zhang, ZiHao Lian, Jiahao Yang, et al.

Mem-α：強化学習を用いたメモリ構築の学習

エージェント

Yu Wang, Ryuichi Takanobu, Zhiqi Liang, et al.

自己対戦による探索：教師なしでエージェント能力の限界を押し広げる

エージェント

Hongliang Lu, Yuhang Wen, Pengyu Cheng, et al.

CudaForge：ハードウェアフィードバックを活用したCUDAカーネル最適化向けエージェントフレームワーク

コード生成

Zijian Zhang, Rong Wang, Shiyang Li, et al.

ScaleNet：増分パラメータを用いた事前学習ニューラルネットワークのスケーリング

ニューラルネットワーク

Zhiwei Hao, Jianyuan Guo, Li Shen, et al.

ブロック注意の混合最適化

Guangxuan Xiao, Junxian Guo, Kasra Mazaheri, et al.

フラクタルフォレンジックス：フラクタルウォーターマークを用いたプロアクティブなディープフェイク検出と局所化

コンピュータビジョン

ディープラーニング

Tianyi Wang, Harry Cheng, Ming-Hui Liu, et al.

チェーン・オブ・シンク・ハイジャッキング

Jianli Zhao, Tingchen Fu, Rylan Schaeffer, et al.

InstanceAssemble：インスタンスアセンブリーアテンションを用いたレイアウト認識型画像生成

拡散モデル

テキストから画像生成

Qiang Xiang, Shuang Sun, Binglei Li, et al.

3EED：3次元空間におけるあらゆるものを基礎化する

3D マシンビジョン

マルチモーダル

Rong Li, Yuhao Dong, Tianshuai Hu, et al.

DetectiumFire：視覚と言語を橋渡しする火災理解のための包括的なマルチモーダルデータセット

マルチモーダル

ビデオ理解

Zixuan Liu, Siavash H. Khajavi, Guangkai Jiang

CHIP：産業現場における椅子の6次元姿勢推定のためのマルチセンサデータセット

3D マシンビジョン

ロボティクス

Mattia Nardon, Mikel Mujika Agirre, Ander González Tomé, et al.

すべてはつながっている：テスト時記憶化、注意バイアス、保持、オンライン最適化をめぐる旅

推論時スケーリングにおけるテキストから視覚生成へのプロンプト設計の再考

推論時スケーリングアプローチとしての視覚言語行動モデルのステアリング：探索の逆効果

OneThinker：画像および動画向けの一体型推論モデル

ViDiC：ビデオ差分キャプション

PretrainZero：強化学習を用いたアクティブ事前学習

すべてのトークンが重要である：大規模言語モデルにおける1600万トークン超の長文脈の一般化

SimScale：スケールにおける現実世界シミュレーションを用いたドライブ学習

Skywork-R1V4：画像とDeepResearchを用いたインタリーブド・シンキングによるエージェント型マルチモーダル知能への挑戦

最小限の人的監視によるガイド付き自己進化型LLM

MultiShotMaster：制御可能なマルチショット動画生成フレームワーク

MG-Nav：スパース空間記憶を用いたデュアルスケール視覚ナビゲーション

コンシステンシー・クリティック：リファレンス誘導型アテンティブアライメントを用いた生成画像内の不整合の修正

深層学習を用いた実用的な研究エージェントは、果たしてどの程度現実のものに近づいているのか？

LLMを用いた強化学習の安定化：定式化と実践

Envision：因果的世界プロセスインサイトにおける統一的理解・生成のベンチマーク

LongVT：ネイティブ・ツールコールによる「長時間動画を用いた思考」のインセンティブ化

コード基盤モデルからエージェントおよびアプリケーションへ：コードインテリジェンス実践ガイド

物理駆動型時空間モデルによるAI生成動画検出

Mem-α：強化学習を用いたメモリ構築の学習

自己対戦による探索：教師なしでエージェント能力の限界を押し広げる

CudaForge：ハードウェアフィードバックを活用したCUDAカーネル最適化向けエージェントフレームワーク

ScaleNet：増分パラメータを用いた事前学習ニューラルネットワークのスケーリング

ブロック注意の混合最適化

フラクタルフォレンジックス：フラクタルウォーターマークを用いたプロアクティブなディープフェイク検出と局所化

チェーン・オブ・シンク・ハイジャッキング

InstanceAssemble：インスタンスアセンブリーアテンションを用いたレイアウト認識型画像生成

3EED：3次元空間におけるあらゆるものを基礎化する

DetectiumFire：視覚と言語を橋渡しする火災理解のための包括的なマルチモーダルデータセット

CHIP：産業現場における椅子の6次元姿勢推定のためのマルチセンサデータセット

すべてはつながっている：テスト時記憶化、注意バイアス、保持、オンライン最適化をめぐる旅

推論時スケーリングにおけるテキストから視覚生成へのプロンプト設計の再考

推論時スケーリングアプローチとしての視覚言語行動モデルのステアリング：探索の逆効果

OneThinker：画像および動画向けの一体型推論モデル

ViDiC：ビデオ差分キャプション

PretrainZero：強化学習を用いたアクティブ事前学習

すべてのトークンが重要である：大規模言語モデルにおける1600万トークン超の長文脈の一般化

SimScale：スケールにおける現実世界シミュレーションを用いたドライブ学習

Skywork-R1V4：画像とDeepResearchを用いたインタリーブド・シンキングによるエージェント型マルチモーダル知能への挑戦

最小限の人的監視によるガイド付き自己進化型LLM

MultiShotMaster：制御可能なマルチショット動画生成フレームワーク

MG-Nav：スパース空間記憶を用いたデュアルスケール視覚ナビゲーション

コンシステンシー・クリティック：リファレンス誘導型アテンティブアライメントを用いた生成画像内の不整合の修正

深層学習を用いた実用的な研究エージェントは、果たしてどの程度現実のものに近づいているのか？

LLMを用いた強化学習の安定化：定式化と実践

Envision：因果的世界プロセスインサイトにおける統一的理解・生成のベンチマーク

LongVT：ネイティブ・ツールコールによる「長時間動画を用いた思考」のインセンティブ化

コード基盤モデルからエージェントおよびアプリケーションへ：コードインテリジェンス実践ガイド

物理駆動型時空間モデルによるAI生成動画検出

Mem-α：強化学習を用いたメモリ構築の学習

自己対戦による探索：教師なしでエージェント能力の限界を押し広げる

CudaForge：ハードウェアフィードバックを活用したCUDAカーネル最適化向けエージェントフレームワーク

ScaleNet：増分パラメータを用いた事前学習ニューラルネットワークのスケーリング

ブロック注意の混合最適化

フラクタルフォレンジックス：フラクタルウォーターマークを用いたプロアクティブなディープフェイク検出と局所化

チェーン・オブ・シンク・ハイジャッキング

InstanceAssemble：インスタンスアセンブリーアテンションを用いたレイアウト認識型画像生成

3EED：3次元空間におけるあらゆるものを基礎化する

DetectiumFire：視覚と言語を橋渡しする火災理解のための包括的なマルチモーダルデータセット

CHIP：産業現場における椅子の6次元姿勢推定のためのマルチセンサデータセット