HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

見えずとも忘れず：動的動画世界モデルのためのハイブリッドメモリ

見えずとも忘れず：動的動画世界モデルのためのハイブリッドメモリ

オブジェクト追跡

Kaijin Chen, Dingkang Liang, Xin Zhou, et al.

BeSafe-Bench: 機能的環境におけるSituated Agentの行動的安全リスクの解明

BeSafe-Bench: 機能的環境におけるSituated Agentの行動的安全リスクの解明

エージェント

マルチモーダル

Yuxuan Li, Yi Lin, Peng Wang, et al.

World Reasoning Arena

エージェント

ベンチマーク

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA: 1 億トークン規模への効率的なエンドツーエンドメモリモデルのスケーリングを実現するメモリスパースアテンション

検索拡張生成

Yu Chen, Runkai Chen, Sheng Yi, et al.

Voxtral TTS

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

RealRestorer: Large-Scale Image Editing Models による汎用性のある実世界画像復元への挑戦

拡散モデル

画像間変換

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

Calibri: Parameter-Efficient Calibration による Diffusion Transformer の高度化

拡散モデル

テキストから画像生成

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

Intern-S1-Pro：兆規模の科学マルチモーダル基盤モデル

マルチモーダル

サイエンスのためのAI

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

PixelSmile: Toward Fine-Grained Facial Expression Editing

拡散モデル

画像間変換

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini: AutoresearchによりLLMsに対する最先端のAdversarial Attackアルゴリズムを発見

サイエンスのためのAI

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness: Code Harnessの自動合成によるLLM Agentsの向上

コード生成

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA: 3D 仮想エージェントの意思決定が密集した POV 同期型マルチビデオ理解のためのベンチマークフレームワーク

ビデオ理解

視覚質問応答

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

なぜ自己蒸留（Self-Distillation）は、LLM の推論能力を（時として）劣化させるのか？

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

UI-Voyager: 失敗経験を通じた自己進化型 GUI Agent

マルチモーダル

エージェント

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

T-MAP：Trajectory-aware Evolutionary Search による LLM Agents に対する Red-Teaming

エージェント

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

CUA-Suite：コンピュータ使用 Agent 向けの大規模な人間注釈付きビデオ実証データセット

ビデオ理解

マルチモーダル

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.

EVA: エンドツーエンドの Video Agent 向け効率的強化学習

ビデオ理解

マルチモーダル

Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.

Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation

拡散モデル

Brian Chao, Lior Yariv, Howard Xiao, et al.

Ego2Web: Egocentric Videoに基づいたWeb Agentベンチマーク

エージェント

ビデオ理解

Shoubin Yu, Lei Shu, Antoine Yang, et al.

静的テンプレートから動的ランタイムグラフへ：LLM Agents 向けワークフロー最適化に関するsurvey

エージェント

Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.

SpecEyes：Speculative Perception と Planning による Agentic Multimodal LLMs の高速化

マルチモーダル

エージェント

Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.

DA-Flow: Diffusion Models を用いた Degradation-Aware な Optical Flow 推定

拡散モデル

ビデオ処理

Jaewon Min, Jaeeun Lee, Yeji Choi, et al.

PEARL：パーソナライズされたストリーミング動画理解モデル

ビデオ理解

マルチモーダル

Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.

WildWorld：アクションと明示的状態を備えた動的世界モデリングおよび生成型 ARPG に向けた大規模データセット

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion: Diffusion によるデコーディングを介した逆レンダリングとしての文書 OCR の再考

拡散モデル

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL：低計算コストを実現する高精度なAgentic Post-Training

監視付き微調整

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

SpatialBoost: 言語誘導推論による視覚表現の強化

マルチモーダル

マルチモーダル表現

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

VideoDetective：長動画理解のための外生的クエリと本質的関連性の両方による手がかりの探索

ビデオ理解

視覚質問応答

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LongCat-Flash-Prover：Agentic Tool-Integrated Reinforcement Learning による Native Formal Reasoning の進展

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

シンプルさによる高速化：音声・動画生成基盤モデルのための単一ストリームアーキテクチャ

マルチモーダル

SII-GAIR, Sand. ai, Ethan Chern, et al.

Omni-WorldBench: 世界モデルのための包括的な相互作用中心評価への指向

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

見えずとも忘れず：動的動画世界モデルのためのハイブリッドメモリ

見えずとも忘れず：動的動画世界モデルのためのハイブリッドメモリ

オブジェクト追跡

Kaijin Chen, Dingkang Liang, Xin Zhou, et al.

BeSafe-Bench: 機能的環境におけるSituated Agentの行動的安全リスクの解明

BeSafe-Bench: 機能的環境におけるSituated Agentの行動的安全リスクの解明

エージェント

マルチモーダル

Yuxuan Li, Yi Lin, Peng Wang, et al.

World Reasoning Arena

エージェント

ベンチマーク

Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.

MSA: 1 億トークン規模への効率的なエンドツーエンドメモリモデルのスケーリングを実現するメモリスパースアテンション

検索拡張生成

Yu Chen, Runkai Chen, Sheng Yi, et al.

Voxtral TTS

Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.

RealRestorer: Large-Scale Image Editing Models による汎用性のある実世界画像復元への挑戦

拡散モデル

画像間変換

Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.

Calibri: Parameter-Efficient Calibration による Diffusion Transformer の高度化

拡散モデル

テキストから画像生成

Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.

Intern-S1-Pro：兆規模の科学マルチモーダル基盤モデル

マルチモーダル

サイエンスのためのAI

Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.

PixelSmile: Toward Fine-Grained Facial Expression Editing

拡散モデル

画像間変換

Jiabin Hua, Hengyuan Xu, Aojie Li, et al.

Claudini: AutoresearchによりLLMsに対する最先端のAdversarial Attackアルゴリズムを発見

サイエンスのためのAI

Alexander Panfilov, Peter Romov, Igor Shilov, et al.

AutoHarness: Code Harnessの自動合成によるLLM Agentsの向上

コード生成

Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.

GameplayQA: 3D 仮想エージェントの意思決定が密集した POV 同期型マルチビデオ理解のためのベンチマークフレームワーク

ビデオ理解

視覚質問応答

Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.

なぜ自己蒸留（Self-Distillation）は、LLM の推論能力を（時として）劣化させるのか？

Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.

UI-Voyager: 失敗経験を通じた自己進化型 GUI Agent

マルチモーダル

エージェント

Zichuan Lin, Feiyu Liu, Yijun Yang, et al.

T-MAP：Trajectory-aware Evolutionary Search による LLM Agents に対する Red-Teaming

エージェント

Hyomin Lee, Sangwoo Park, Yumin Choi, et al.

CUA-Suite：コンピュータ使用 Agent 向けの大規模な人間注釈付きビデオ実証データセット

ビデオ理解

マルチモーダル

Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.

EVA: エンドツーエンドの Video Agent 向け効率的強化学習

ビデオ理解

マルチモーダル

Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.

Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation

拡散モデル

Brian Chao, Lior Yariv, Howard Xiao, et al.

Ego2Web: Egocentric Videoに基づいたWeb Agentベンチマーク

エージェント

ビデオ理解

Shoubin Yu, Lei Shu, Antoine Yang, et al.

静的テンプレートから動的ランタイムグラフへ：LLM Agents 向けワークフロー最適化に関するsurvey

エージェント

Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.

SpecEyes：Speculative Perception と Planning による Agentic Multimodal LLMs の高速化

マルチモーダル

エージェント

Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.

DA-Flow: Diffusion Models を用いた Degradation-Aware な Optical Flow 推定

拡散モデル

ビデオ処理

Jaewon Min, Jaeeun Lee, Yeji Choi, et al.

PEARL：パーソナライズされたストリーミング動画理解モデル

ビデオ理解

マルチモーダル

Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.

WildWorld：アクションと明示的状態を備えた動的世界モデリングおよび生成型 ARPG に向けた大規模データセット

Zhen Li, Zian Meng, Shuwei Shi, et al.

MinerU-Diffusion: Diffusion によるデコーディングを介した逆レンダリングとしての文書 OCR の再考

拡散モデル

Hejun Dong, Junbo Niu, Bin Wang, et al.

PivotRL：低計算コストを実現する高精度なAgentic Post-Training

監視付き微調整

Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

Injae Kim, Chaehyeon Kim, Minseong Bae, et al.

SpatialBoost: 言語誘導推論による視覚表現の強化

マルチモーダル

マルチモーダル表現

Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.

VideoDetective：長動画理解のための外生的クエリと本質的関連性の両方による手がかりの探索

ビデオ理解

視覚質問応答

Ruoliu Yang, Chu Wu, Caifeng Shan, et al.

LongCat-Flash-Prover：Agentic Tool-Integrated Reinforcement Learning による Native Formal Reasoning の進展

Jianing Wang, Jianfei Zhang, Qi Guo, et al.

シンプルさによる高速化：音声・動画生成基盤モデルのための単一ストリームアーキテクチャ

マルチモーダル

SII-GAIR, Sand. ai, Ethan Chern, et al.

Omni-WorldBench: 世界モデルのための包括的な相互作用中心評価への指向

Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.

World Reasoning Arena

MSA: 1 億トークン規模への効率的なエンドツーエンドメモリモデルのスケーリングを実現するメモリスパースアテンション

Voxtral TTS

RealRestorer: Large-Scale Image Editing Models による汎用性のある実世界画像復元への挑戦

Calibri: Parameter-Efficient Calibration による Diffusion Transformer の高度化

Intern-S1-Pro：兆規模の科学マルチモーダル基盤モデル

PixelSmile: Toward Fine-Grained Facial Expression Editing

Claudini: AutoresearchによりLLMsに対する最先端のAdversarial Attackアルゴリズムを発見

AutoHarness: Code Harnessの自動合成によるLLM Agentsの向上

GameplayQA: 3D 仮想エージェントの意思決定が密集した POV 同期型マルチビデオ理解のためのベンチマークフレームワーク

なぜ自己蒸留（Self-Distillation）は、LLM の推論能力を（時として）劣化させるのか？

UI-Voyager: 失敗経験を通じた自己進化型 GUI Agent

T-MAP：Trajectory-aware Evolutionary Search による LLM Agents に対する Red-Teaming

CUA-Suite：コンピュータ使用 Agent 向けの大規模な人間注釈付きビデオ実証データセット

EVA: エンドツーエンドの Video Agent 向け効率的強化学習

Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation

Ego2Web: Egocentric Videoに基づいたWeb Agentベンチマーク

静的テンプレートから動的ランタイムグラフへ：LLM Agents 向けワークフロー最適化に関するsurvey

SpecEyes：Speculative Perception と Planning による Agentic Multimodal LLMs の高速化

DA-Flow: Diffusion Models を用いた Degradation-Aware な Optical Flow 推定

PEARL：パーソナライズされたストリーミング動画理解モデル

WildWorld：アクションと明示的状態を備えた動的世界モデリングおよび生成型 ARPG に向けた大規模データセット

MinerU-Diffusion: Diffusion によるデコーディングを介した逆レンダリングとしての文書 OCR の再考

PivotRL：低計算コストを実現する高精度なAgentic Post-Training

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

SpatialBoost: 言語誘導推論による視覚表現の強化

VideoDetective：長動画理解のための外生的クエリと本質的関連性の両方による手がかりの探索

LongCat-Flash-Prover：Agentic Tool-Integrated Reinforcement Learning による Native Formal Reasoning の進展

シンプルさによる高速化：音声・動画生成基盤モデルのための単一ストリームアーキテクチャ

Omni-WorldBench: 世界モデルのための包括的な相互作用中心評価への指向

World Reasoning Arena

MSA: 1 億トークン規模への効率的なエンドツーエンドメモリモデルのスケーリングを実現するメモリスパースアテンション

Voxtral TTS

RealRestorer: Large-Scale Image Editing Models による汎用性のある実世界画像復元への挑戦

Calibri: Parameter-Efficient Calibration による Diffusion Transformer の高度化

Intern-S1-Pro：兆規模の科学マルチモーダル基盤モデル

PixelSmile: Toward Fine-Grained Facial Expression Editing

Claudini: AutoresearchによりLLMsに対する最先端のAdversarial Attackアルゴリズムを発見

AutoHarness: Code Harnessの自動合成によるLLM Agentsの向上

GameplayQA: 3D 仮想エージェントの意思決定が密集した POV 同期型マルチビデオ理解のためのベンチマークフレームワーク

なぜ自己蒸留（Self-Distillation）は、LLM の推論能力を（時として）劣化させるのか？

UI-Voyager: 失敗経験を通じた自己進化型 GUI Agent

T-MAP：Trajectory-aware Evolutionary Search による LLM Agents に対する Red-Teaming

CUA-Suite：コンピュータ使用 Agent 向けの大規模な人間注釈付きビデオ実証データセット

EVA: エンドツーエンドの Video Agent 向け効率的強化学習

Foveated Diffusion: Efficient Spatially Adaptive Image and Video Generation

Ego2Web: Egocentric Videoに基づいたWeb Agentベンチマーク

静的テンプレートから動的ランタイムグラフへ：LLM Agents 向けワークフロー最適化に関するsurvey

SpecEyes：Speculative Perception と Planning による Agentic Multimodal LLMs の高速化

DA-Flow: Diffusion Models を用いた Degradation-Aware な Optical Flow 推定

PEARL：パーソナライズされたストリーミング動画理解モデル

WildWorld：アクションと明示的状態を備えた動的世界モデリングおよび生成型 ARPG に向けた大規模データセット

MinerU-Diffusion: Diffusion によるデコーディングを介した逆レンダリングとしての文書 OCR の再考

PivotRL：低計算コストを実現する高精度なAgentic Post-Training

F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting

SpatialBoost: 言語誘導推論による視覚表現の強化

VideoDetective：長動画理解のための外生的クエリと本質的関連性の両方による手がかりの探索

LongCat-Flash-Prover：Agentic Tool-Integrated Reinforcement Learning による Native Formal Reasoning の進展

シンプルさによる高速化：音声・動画生成基盤モデルのための単一ストリームアーキテクチャ

Omni-WorldBench: 世界モデルのための包括的な相互作用中心評価への指向