HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
HyperAI
HyperAI
メイン
ホーム
GPU
コンソール
ドキュメント
料金
パルス
ニュース
リソース
論文
ノートブック
データセット
Wiki
ベンチマーク
SOTA
LLMモデル
GPUランキング
コミュニティ
イベント
ユーティリティ
検索
概要
利用規約
プライバシーポリシー
日本語
HyperAI
HyperAI
Toggle Sidebar
⌘
K
Command Palette
Search for a command to run...
サインイン
HyperAI
Papers
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文
LongCat-Flash-Prover:Agentic Tool-Integrated Reinforcement Learning による Native Formal Reasoning の進展
LLM
Reasoning
Jianing Wang, Jianfei Zhang, Qi Guo, et al.
シンプルさによる高速化:音声・動画生成基盤モデルのための単一ストリームアーキテクチャ
通義千問
マルチモーダル
SII-GAIR, Sand. ai, Ethan Chern, et al.
Omni-WorldBench: 世界モデルのための包括的な相互作用中心評価への指向
動画生成
3D生成
Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.
PrismAudio:動画から音声への生成のための分解型チェーン・オブ・ソートと多次元報酬
Text-to-Audio
マルチモーダル
Huadai Liu, Kaicheng Luo, Wen Wang, et al.
LeWorldModel:画素からの安定したエンドツーエンド型結合埋め込み予測アーキテクチャ
ディープラーニング
マルチモーダル表現
Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.
FlowScene:マルチモーダルグラフ補正フローによるスタイル一貫性を持つ屋内シーン生成
3D生成
マルチモーダル
Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.
LumosX: 個別化ビデオ生成のための、任意のアイデンティティとその属性との関連付け
テキストから動画
拡散モデル
Jiazheng Xing, Fei Du, Hangjie Yuan, et al.
LLM 向けの Y-Combinator:λ-Calculus による Long-Context Rot の解決
LLM
テキスト生成
Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.
ProactiveBench: Multimodal Large Language Models における Proactiveness の Benchmarking
マルチモーダル
視覚質問応答
Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
マルチモーダル
視覚質問応答
Yan Shu, Bin Ren, Zhitong Xiong, et al.
Astrolabe: 蒸留された自己回帰型動画モデルのための前進プロセス強化学習の制御
動画生成
モデル学習
Songchun Zhang, Zeyue Xue, Siming Fu, et al.
HopChain: 汎用性のある視覚言語推論のためのマルチホップデータ合成
視覚質問応答
LLM
Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.
Diffusion ベースの Discrete Motion Tokenizer による意味条件と運動学的条件の橋渡し
拡散モデル
動画生成
Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.
FASTER: リアルタイムフロー VLAs の再考
マルチモーダル
拡散モデル
Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.
3DreamBooth:高忠実度3D被写体駆動型動画生成モデル
3D生成
テキストから動画
Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.
SAMA: 命令付きビデオ編集のための因子分解セマンティックアンカーと運動整合
動画生成
拡散モデル
Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.
生成モデルは空間を理解する:シーン理解のための暗黙的 3D 事前知識の解放
3D生成
動画生成
Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.
Efficient Reasoning with Balanced Thinking
LLM
Reasoning
Yulin Li, Tengyao Tu, Li Ding, et al.
行動に先立ち視察せよ:ビジョン・ランゲージ・アクションモデルのためのビジョン基盤表現の強化
マルチモーダル
マルチモーダル表現
Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.
補完的強化学習
強化学習
エージェント
Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.
アライメントは言語モデルを記述的ではなく規範的にする
LLM
Preference Modeling
Eilam Shapira, Moshe Tennenholtz, Roi Reichart
MosaicMem: 制御可能なビデオ世界モデルのためのハイブリッド空間メモリ
動画生成
拡散モデル
Wei Yu, Runjia Qian, Yumeng Li, et al.
MetaClaw: Just Talk -- 自然環境下でメタ学習し進化するエージェント
LLM
エージェント
Peng Xia, Jianwen Chen, Xinyu Yang, et al.
Video-CoE:イベント連鎖による動画事象予測の強化
ビデオ理解
マルチモーダル
Qile Su, Jing Tang, Rui Chen, et al.
FunCineForge:多様な映画シーンにおけるゼロショット映画吹き替えのための統合データセットツールキットおよびモデル
Text-to-Speech
マルチモーダル
Jiaxuan Liu, Yang Xiang, Han Zhao, et al.
大規模言語モデルにおける文脈内透かし
LLM
テキスト生成
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.
WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド
拡散モデル
動画生成
Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.
動画推論の解明
動画生成
拡散モデル
Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.
Kinema4D:時空間具象シミュレーションのための運動学的 4D 世界モデルリング
エムボディドインテリジェンス
動画生成
Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.
Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル
ドキュメント理解
OCR
Daxiang Dong, Mingming Zheng, Dong Xu, et al.
InCoder-32B:産業シナリオ向けコード基盤モデル
コード生成
LLM
Jian Yang, Wei Zhang, Jiajun Wu, et al.
MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて
エージェント
Reasoning
MiroMind Team, S. Bai, L. Bing, et al.
1
2
3
4
5
6
57
LongCat-Flash-Prover:Agentic Tool-Integrated Reinforcement Learning による Native Formal Reasoning の進展
LLM
Reasoning
Jianing Wang, Jianfei Zhang, Qi Guo, et al.
シンプルさによる高速化:音声・動画生成基盤モデルのための単一ストリームアーキテクチャ
通義千問
マルチモーダル
SII-GAIR, Sand. ai, Ethan Chern, et al.
Omni-WorldBench: 世界モデルのための包括的な相互作用中心評価への指向
動画生成
3D生成
Meiqi Wu, Zhixin Cai, Fufangchen Zhao, et al.
PrismAudio:動画から音声への生成のための分解型チェーン・オブ・ソートと多次元報酬
Text-to-Audio
マルチモーダル
Huadai Liu, Kaicheng Luo, Wen Wang, et al.
LeWorldModel:画素からの安定したエンドツーエンド型結合埋め込み予測アーキテクチャ
ディープラーニング
マルチモーダル表現
Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.
FlowScene:マルチモーダルグラフ補正フローによるスタイル一貫性を持つ屋内シーン生成
3D生成
マルチモーダル
Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.
LumosX: 個別化ビデオ生成のための、任意のアイデンティティとその属性との関連付け
テキストから動画
拡散モデル
Jiazheng Xing, Fei Du, Hangjie Yuan, et al.
LLM 向けの Y-Combinator:λ-Calculus による Long-Context Rot の解決
LLM
テキスト生成
Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.
ProactiveBench: Multimodal Large Language Models における Proactiveness の Benchmarking
マルチモーダル
視覚質問応答
Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.
TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation
マルチモーダル
視覚質問応答
Yan Shu, Bin Ren, Zhitong Xiong, et al.
Astrolabe: 蒸留された自己回帰型動画モデルのための前進プロセス強化学習の制御
動画生成
モデル学習
Songchun Zhang, Zeyue Xue, Siming Fu, et al.
HopChain: 汎用性のある視覚言語推論のためのマルチホップデータ合成
視覚質問応答
LLM
Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.
Diffusion ベースの Discrete Motion Tokenizer による意味条件と運動学的条件の橋渡し
拡散モデル
動画生成
Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.
FASTER: リアルタイムフロー VLAs の再考
マルチモーダル
拡散モデル
Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.
3DreamBooth:高忠実度3D被写体駆動型動画生成モデル
3D生成
テキストから動画
Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.
SAMA: 命令付きビデオ編集のための因子分解セマンティックアンカーと運動整合
動画生成
拡散モデル
Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.
生成モデルは空間を理解する:シーン理解のための暗黙的 3D 事前知識の解放
3D生成
動画生成
Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.
Efficient Reasoning with Balanced Thinking
LLM
Reasoning
Yulin Li, Tengyao Tu, Li Ding, et al.
行動に先立ち視察せよ:ビジョン・ランゲージ・アクションモデルのためのビジョン基盤表現の強化
マルチモーダル
マルチモーダル表現
Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.
補完的強化学習
強化学習
エージェント
Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.
アライメントは言語モデルを記述的ではなく規範的にする
LLM
Preference Modeling
Eilam Shapira, Moshe Tennenholtz, Roi Reichart
MosaicMem: 制御可能なビデオ世界モデルのためのハイブリッド空間メモリ
動画生成
拡散モデル
Wei Yu, Runjia Qian, Yumeng Li, et al.
MetaClaw: Just Talk -- 自然環境下でメタ学習し進化するエージェント
LLM
エージェント
Peng Xia, Jianwen Chen, Xinyu Yang, et al.
Video-CoE:イベント連鎖による動画事象予測の強化
ビデオ理解
マルチモーダル
Qile Su, Jing Tang, Rui Chen, et al.
FunCineForge:多様な映画シーンにおけるゼロショット映画吹き替えのための統合データセットツールキットおよびモデル
Text-to-Speech
マルチモーダル
Jiaxuan Liu, Yang Xiang, Han Zhao, et al.
大規模言語モデルにおける文脈内透かし
LLM
テキスト生成
Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.
WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド
拡散モデル
動画生成
Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.
動画推論の解明
動画生成
拡散モデル
Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.
Kinema4D:時空間具象シミュレーションのための運動学的 4D 世界モデルリング
エムボディドインテリジェンス
動画生成
Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.
Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル
ドキュメント理解
OCR
Daxiang Dong, Mingming Zheng, Dong Xu, et al.
InCoder-32B:産業シナリオ向けコード基盤モデル
コード生成
LLM
Jian Yang, Wei Zhang, Jiajun Wu, et al.
MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて
エージェント
Reasoning
MiroMind Team, S. Bai, L. Bing, et al.
1
2
3
4
5
6
57