HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
Trace2Skill: 軌道局所的な教訓を転移可能な Agent 技能へ蒸留する
LLM
エージェント
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.
PackForcing:短時間の動画トレーニングが、長時間の動画サンプリングおよび長文脈推論に十分である
動画生成
拡散モデル
Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.
ShotStream: 対話型ストーリーテリングのためのストリーミング・マルチショット動画生成
テキストから動画
動画生成
Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.
見えずとも忘れず:動的動画世界モデルのためのハイブリッドメモリ
動画生成
オブジェクト追跡
Kaijin Chen, Dingkang Liang, Xin Zhou, et al.
BeSafe-Bench:機能環境におけるSituated Agentの行動的安全性リスクの解明
エージェント
マルチモーダル
Yuxuan Li, Yi Lin, Peng Wang, et al.
World Reasoning Arena
エージェント
ベンチマーク
Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.
MSA: 1 億トークン規模への効率的なエンドツーエンドメモリモデルのスケーリングを実現するメモリスパースアテンション
検索拡張生成
LLM
Yu Chen, Runkai Chen, Sheng Yi, et al.
Voxtral TTS
Text-to-Speech
Text-to-Audio
Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.
RealRestorer: Large-Scale Image Editing Models による汎用性のある実世界画像復元への挑戦
拡散モデル
画像間変換
Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.
Calibri: Parameter-Efficient Calibration による Diffusion Transformer の高度化
拡散モデル
テキストから画像生成
Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.
Intern-S1-Pro:兆規模の科学マルチモーダル基盤モデル
マルチモーダル
サイエンスのためのAI
Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.
PixelSmile: Toward Fine-Grained Facial Expression Editing
拡散モデル
画像間変換
Jiabin Hua, Hengyuan Xu, Aojie Li, et al.
Claudini: Autoresearch が LLMs に対する最先端の敵対的攻撃アルゴリズムを発見
LLM
DeepSeek
Alexander Panfilov, Peter Romov, Igor Shilov, et al.
AutoHarness: LLM エージェントの性能向上に向けたコードハarnessの自動合成手法
LLM
コード生成
Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.
GameplayQA: 3D 仮想エージェントの意思決定が密集した POV 同期型マルチビデオ理解のためのベンチマークフレームワーク
ビデオ理解
視覚質問応答
Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.
なぜ自己蒸留(Self-Distillation)は、LLM の推論能力を(時として)劣化させるのか?
LLM
Reasoning
Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.
UI-Voyager: 失敗経験を通じた自己進化型 GUI Agent
マルチモーダル
エージェント
Zichuan Lin, Feiyu Liu, Yijun Yang, et al.
T-MAP:Trajectory-aware Evolutionary Search による LLM Agents に対する Red-Teaming
LLM
エージェント
Hyomin Lee, Sangwoo Park, Yumin Choi, et al.
CUA-Suite:コンピュータ使用 Agent 向けの大規模な人間注釈付きビデオ実証データセット
ビデオ理解
マルチモーダル
Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.
EVA: エンドツーエンドの Video Agent 向け効率的強化学習
ビデオ理解
マルチモーダル
Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.
Foveated Diffusion:効率的な空間適応型画像および動画生成
拡散モデル
画像生成
Brian Chao, Lior Yariv, Howard Xiao, et al.
Ego2Web:Egocentric Video に基づく Web Agent ベンチマーク
エージェント
ビデオ理解
Shoubin Yu, Lei Shu, Antoine Yang, et al.
静的テンプレートから動的ランタイムグラフへ:LLM Agents 向けワークフロー最適化に関するsurvey
LLM
エージェント
Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.
SpecEyes:Speculative Perception と Planning による Agentic Multimodal LLMs の高速化
マルチモーダル
エージェント
Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.
DA-Flow: Diffusion Models を用いた Degradation-Aware な Optical Flow 推定
拡散モデル
ビデオ処理
Jaewon Min, Jaeeun Lee, Yeji Choi, et al.
PEARL:パーソナライズされたストリーミング動画理解モデル
ビデオ理解
マルチモーダル
Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.
WildWorld:アクションと明示的状態を備えた動的世界モデリングおよび生成型 ARPG に向けた大規模データセット
動画生成
行動認識
Zhen Li, Zian Meng, Shuwei Shi, et al.
MinerU-Diffusion: Diffusion によるデコーディングを介した逆レンダリングとしての文書 OCR の再考
OCR
拡散モデル
Hejun Dong, Junbo Niu, Bin Wang, et al.
PivotRL: 低計算コストにおける高精度なエージェント型事後学習
監視付き微調整
強化学習
Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.
F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting
3D生成
3Dモデル
Injae Kim, Chaehyeon Kim, Minseong Bae, et al.
SpatialBoost: 言語誘導推論による視覚表現の強化
マルチモーダル
マルチモーダル表現
Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.
VideoDetective:長動画理解のための外生的クエリと本質的関連性の両方による手がかりの探索
ビデオ理解
視覚質問応答
Ruoliu Yang, Chu Wu, Caifeng Shan, et al.
1
2
3
4
5
57
Trace2Skill: 軌道局所的な教訓を転移可能な Agent 技能へ蒸留する
LLM
エージェント
Jingwei Ni, Yihao Liu, Xinpeng Liu, et al.
PackForcing:短時間の動画トレーニングが、長時間の動画サンプリングおよび長文脈推論に十分である
動画生成
拡散モデル
Xiaofeng Mao, Shaohao Rui, Kaining Ying, et al.
ShotStream: 対話型ストーリーテリングのためのストリーミング・マルチショット動画生成
テキストから動画
動画生成
Yawen Luo, Xiaoyu Shi, Junhao Zhuang, et al.
見えずとも忘れず:動的動画世界モデルのためのハイブリッドメモリ
動画生成
オブジェクト追跡
Kaijin Chen, Dingkang Liang, Xin Zhou, et al.
BeSafe-Bench:機能環境におけるSituated Agentの行動的安全性リスクの解明
エージェント
マルチモーダル
Yuxuan Li, Yi Lin, Peng Wang, et al.
World Reasoning Arena
エージェント
ベンチマーク
Qiyue Gao, Kun Zhou, Jiannan Xiang, et al.
MSA: 1 億トークン規模への効率的なエンドツーエンドメモリモデルのスケーリングを実現するメモリスパースアテンション
検索拡張生成
LLM
Yu Chen, Runkai Chen, Sheng Yi, et al.
Voxtral TTS
Text-to-Speech
Text-to-Audio
Alexander H. Liu, Alexis Tacnet, Andy Ehrenberg, et al.
RealRestorer: Large-Scale Image Editing Models による汎用性のある実世界画像復元への挑戦
拡散モデル
画像間変換
Yufeng Yang, Xianfang Zeng, Zhangqi Jiang, et al.
Calibri: Parameter-Efficient Calibration による Diffusion Transformer の高度化
拡散モデル
テキストから画像生成
Danil Tokhchukov, Aysel Mirzoeva, Andrey Kuznetsov, et al.
Intern-S1-Pro:兆規模の科学マルチモーダル基盤モデル
マルチモーダル
サイエンスのためのAI
Yicheng Zou, Dongsheng Zhu, Lin Zhu, et al.
PixelSmile: Toward Fine-Grained Facial Expression Editing
拡散モデル
画像間変換
Jiabin Hua, Hengyuan Xu, Aojie Li, et al.
Claudini: Autoresearch が LLMs に対する最先端の敵対的攻撃アルゴリズムを発見
LLM
DeepSeek
Alexander Panfilov, Peter Romov, Igor Shilov, et al.
AutoHarness: LLM エージェントの性能向上に向けたコードハarnessの自動合成手法
LLM
コード生成
Xinghua Lou, Miguel Lázaro-Gredilla, Antoine Dedieu, et al.
GameplayQA: 3D 仮想エージェントの意思決定が密集した POV 同期型マルチビデオ理解のためのベンチマークフレームワーク
ビデオ理解
視覚質問応答
Yunzhe Wang, Runhui Xu, Kexin Zheng, et al.
なぜ自己蒸留(Self-Distillation)は、LLM の推論能力を(時として)劣化させるのか?
LLM
Reasoning
Jeonghye Kim, Xufang Luo, Minbeom Kim, et al.
UI-Voyager: 失敗経験を通じた自己進化型 GUI Agent
マルチモーダル
エージェント
Zichuan Lin, Feiyu Liu, Yijun Yang, et al.
T-MAP:Trajectory-aware Evolutionary Search による LLM Agents に対する Red-Teaming
LLM
エージェント
Hyomin Lee, Sangwoo Park, Yumin Choi, et al.
CUA-Suite:コンピュータ使用 Agent 向けの大規模な人間注釈付きビデオ実証データセット
ビデオ理解
マルチモーダル
Xiangru Jian, Shravan Nayak, Kevin Qinghong Lin, et al.
EVA: エンドツーエンドの Video Agent 向け効率的強化学習
ビデオ理解
マルチモーダル
Yaolun Zhang, Ruohui Wang, Jiahao Wang, et al.
Foveated Diffusion:効率的な空間適応型画像および動画生成
拡散モデル
画像生成
Brian Chao, Lior Yariv, Howard Xiao, et al.
Ego2Web:Egocentric Video に基づく Web Agent ベンチマーク
エージェント
ビデオ理解
Shoubin Yu, Lei Shu, Antoine Yang, et al.
静的テンプレートから動的ランタイムグラフへ:LLM Agents 向けワークフロー最適化に関するsurvey
LLM
エージェント
Ling Yue, Kushal Raj Bhandari, Ching-Yun Ko, et al.
SpecEyes:Speculative Perception と Planning による Agentic Multimodal LLMs の高速化
マルチモーダル
エージェント
Haoyu Huang, Jinfa Huang, Zhongwei Wan, et al.
DA-Flow: Diffusion Models を用いた Degradation-Aware な Optical Flow 推定
拡散モデル
ビデオ処理
Jaewon Min, Jaeeun Lee, Yeji Choi, et al.
PEARL:パーソナライズされたストリーミング動画理解モデル
ビデオ理解
マルチモーダル
Yuanhong Zheng, Ruichuan An, Xiaopeng Lin, et al.
WildWorld:アクションと明示的状態を備えた動的世界モデリングおよび生成型 ARPG に向けた大規模データセット
動画生成
行動認識
Zhen Li, Zian Meng, Shuwei Shi, et al.
MinerU-Diffusion: Diffusion によるデコーディングを介した逆レンダリングとしての文書 OCR の再考
OCR
拡散モデル
Hejun Dong, Junbo Niu, Bin Wang, et al.
PivotRL: 低計算コストにおける高精度なエージェント型事後学習
監視付き微調整
強化学習
Junkeun Yi, Damon Mosk-Aoyama, Baihe Huang, et al.
F4Splat: Feed-Forward Predictive Densification for Feed-Forward 3D Gaussian Splatting
3D生成
3Dモデル
Injae Kim, Chaehyeon Kim, Minseong Bae, et al.
SpatialBoost: 言語誘導推論による視覚表現の強化
マルチモーダル
マルチモーダル表現
Byungwoo Jeon, Dongyoung Kim, Huiwon Jang, et al.
VideoDetective:長動画理解のための外生的クエリと本質的関連性の両方による手がかりの探索
ビデオ理解
視覚質問応答
Ruoliu Yang, Chu Wu, Caifeng Shan, et al.
1
2
3
4
5
57