HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

PrismAudio：動画から音声への生成のための分解型チェーン・オブ・ソートと多次元報酬

PrismAudio：動画から音声への生成のための分解型チェーン・オブ・ソートと多次元報酬

マルチモーダル

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

LeWorldModel：画素からの安定したエンドツーエンド型結合埋め込み予測アーキテクチャ

LeWorldModel：画素からの安定したエンドツーエンド型結合埋め込み予測アーキテクチャ

ディープラーニング

マルチモーダル表現

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

FlowScene：マルチモーダルグラフ補正フローによるスタイル一貫性を持つ屋内シーン生成

マルチモーダル

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

LumosX: 個別化ビデオ生成のための、任意のアイデンティティとその属性との関連付け

テキストから動画

拡散モデル

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

LLM 向けの Y-Combinator：λ-Calculus による Long-Context Rot の解決

テキスト生成

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

ProactiveBench: Multimodal Large Language Models における Proactiveness の Benchmarking

マルチモーダル

視覚質問応答

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

マルチモーダル

視覚質問応答

Yan Shu, Bin Ren, Zhitong Xiong, et al.

Astrolabe: 蒸留された自己回帰型動画モデルのための前進プロセス強化学習の制御

モデル学習

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

HopChain: 汎用性のある視覚言語推論のためのマルチホップデータ合成

視覚質問応答

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

Diffusion ベースの Discrete Motion Tokenizer による意味条件と運動学的条件の橋渡し

拡散モデル

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

FASTER: リアルタイムフロー VLAs の再考

マルチモーダル

拡散モデル

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth：高忠実度3D被写体駆動型動画生成モデル

テキストから動画

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

SAMA: 命令付きビデオ編集のための因子分解セマンティックアンカーと運動整合

拡散モデル

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

生成モデルは空間を理解する：シーン理解のための暗黙的 3D 事前知識の解放

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Efficient Reasoning with Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

行動に先立ち視察せよ：ビジョン・ランゲージ・アクションモデルのためのビジョン基盤表現の強化

マルチモーダル

マルチモーダル表現

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

補完的強化学習

エージェント

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

アライメントは言語モデルを記述的ではなく規範的にする

Preference Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: 制御可能なビデオ世界モデルのためのハイブリッド空間メモリ

拡散モデル

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Just Talk -- 自然環境下でメタ学習し進化するエージェント

エージェント

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Chain of Events を用いた Video Event Prediction の強化

ビデオ理解

マルチモーダル

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: 多様な映画シーンにおけるZero-Shot Movie Dubbingを実現するための統一データセット・ツールキットおよびモデル

マルチモーダル

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

Large Language ModelsのためのIn-Context Watermarks

テキスト生成

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド

拡散モデル

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

動画推論の解明

拡散モデル

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D：時空間具象シミュレーションのための運動学的 4D 世界モデルリング

エムボディドインテリジェンス

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル

ドキュメント理解

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B：産業シナリオ向けコード基盤モデル

コード生成

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて

エージェント

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R：シミュレーション対応型人間・シーン相互作用の物理ループ内再構成

3D マシンビジョン

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

アテンション残差

Kimi Team, Guangyu Chen, Yu Zhang, et al.

PrismAudio：動画から音声への生成のための分解型チェーン・オブ・ソートと多次元報酬

PrismAudio：動画から音声への生成のための分解型チェーン・オブ・ソートと多次元報酬

マルチモーダル

Huadai Liu, Kaicheng Luo, Wen Wang, et al.

LeWorldModel：画素からの安定したエンドツーエンド型結合埋め込み予測アーキテクチャ

LeWorldModel：画素からの安定したエンドツーエンド型結合埋め込み予測アーキテクチャ

ディープラーニング

マルチモーダル表現

Lucas Maes, Quentin Le Lidec, Damien Scieur, et al.

FlowScene：マルチモーダルグラフ補正フローによるスタイル一貫性を持つ屋内シーン生成

マルチモーダル

Zhifei Yang, Guangyao Zhai, Keyang Lu, et al.

LumosX: 個別化ビデオ生成のための、任意のアイデンティティとその属性との関連付け

テキストから動画

拡散モデル

Jiazheng Xing, Fei Du, Hangjie Yuan, et al.

LLM 向けの Y-Combinator：λ-Calculus による Long-Context Rot の解決

テキスト生成

Amartya Roy, Rasul Tutunov, Xiaotong Ji, et al.

ProactiveBench: Multimodal Large Language Models における Proactiveness の Benchmarking

マルチモーダル

視覚質問応答

Thomas De Min, Subhankar Roy, Stéphane Lathuilière, et al.

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

マルチモーダル

視覚質問応答

Yan Shu, Bin Ren, Zhitong Xiong, et al.

Astrolabe: 蒸留された自己回帰型動画モデルのための前進プロセス強化学習の制御

モデル学習

Songchun Zhang, Zeyue Xue, Siming Fu, et al.

HopChain: 汎用性のある視覚言語推論のためのマルチホップデータ合成

視覚質問応答

Shenzhi Wang, Shixuan Liu, Jing Zhou, et al.

Diffusion ベースの Discrete Motion Tokenizer による意味条件と運動学的条件の橋渡し

拡散モデル

Chenyang Gu, Mingyuan Zhang, Haozhe Xie, et al.

FASTER: リアルタイムフロー VLAs の再考

マルチモーダル

拡散モデル

Yuxiang Lu, Zhe Liu, Xianzhe Fan, et al.

3DreamBooth：高忠実度3D被写体駆動型動画生成モデル

テキストから動画

Hyun-kyu Ko, Jihyeon Park, Younghyun Kim, et al.

SAMA: 命令付きビデオ編集のための因子分解セマンティックアンカーと運動整合

拡散モデル

Xinyao Zhang, Wenkai Dong, Yuxin Song, et al.

生成モデルは空間を理解する：シーン理解のための暗黙的 3D 事前知識の解放

Xianjin Wu, Dingkang Liang, Tianrui Feng, et al.

Efficient Reasoning with Balanced Thinking

Yulin Li, Tengyao Tu, Li Ding, et al.

行動に先立ち視察せよ：ビジョン・ランゲージ・アクションモデルのためのビジョン基盤表現の強化

マルチモーダル

マルチモーダル表現

Yulin Luo, Hao Chen, Zhuangzhe Wu, et al.

補完的強化学習

エージェント

Dilxat Muhtar, Jiashun Liu, Wei Gao, et al.

アライメントは言語モデルを記述的ではなく規範的にする

Preference Modeling

Eilam Shapira, Moshe Tennenholtz, Roi Reichart

MosaicMem: 制御可能なビデオ世界モデルのためのハイブリッド空間メモリ

拡散モデル

Wei Yu, Runjia Qian, Yumeng Li, et al.

MetaClaw: Just Talk -- 自然環境下でメタ学習し進化するエージェント

エージェント

Peng Xia, Jianwen Chen, Xinyu Yang, et al.

Video-CoE: Chain of Events を用いた Video Event Prediction の強化

ビデオ理解

マルチモーダル

Qile Su, Jing Tang, Rui Chen, et al.

FunCineForge: 多様な映画シーンにおけるZero-Shot Movie Dubbingを実現するための統一データセット・ツールキットおよびモデル

マルチモーダル

Jiaxuan Liu, Yang Xiang, Han Zhao, et al.

Large Language ModelsのためのIn-Context Watermarks

テキスト生成

Yepeng Liu, Xuandong Zhao, Christopher Kruegel, et al.

WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド

拡散モデル

Jisu Nam, Yicong Hong, Chun-Hao Paul Huang, et al.

動画推論の解明

拡散モデル

Ruisi Wang, Zhongang Cai, Fanyi Pu, et al.

Kinema4D：時空間具象シミュレーションのための運動学的 4D 世界モデルリング

エムボディドインテリジェンス

Mutian Xu, Tianbao Zhang, Tianqi Liu, et al.

Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル

ドキュメント理解

Daxiang Dong, Mingming Zheng, Dong Xu, et al.

InCoder-32B：産業シナリオ向けコード基盤モデル

コード生成

Jian Yang, Wei Zhang, Jiajun Wu, et al.

MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて

エージェント

MiroMind Team, S. Bai, L. Bing, et al.

HSImul3R：シミュレーション対応型人間・シーン相互作用の物理ループ内再構成

3D マシンビジョン

Yukang Cao, Haozhe Xie, Fangzhou Hong, et al.

Mixture-of-Depths Attention

Lianghui Zhu, Yuxin Fang, Bencheng Liao, et al.

アテンション残差

Kimi Team, Guangyu Chen, Yu Zhang, et al.

FlowScene：マルチモーダルグラフ補正フローによるスタイル一貫性を持つ屋内シーン生成

LumosX: 個別化ビデオ生成のための、任意のアイデンティティとその属性との関連付け

LLM 向けの Y-Combinator：λ-Calculus による Long-Context Rot の解決

ProactiveBench: Multimodal Large Language Models における Proactiveness の Benchmarking

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Astrolabe: 蒸留された自己回帰型動画モデルのための前進プロセス強化学習の制御

HopChain: 汎用性のある視覚言語推論のためのマルチホップデータ合成

Diffusion ベースの Discrete Motion Tokenizer による意味条件と運動学的条件の橋渡し

FASTER: リアルタイムフロー VLAs の再考

3DreamBooth：高忠実度3D被写体駆動型動画生成モデル

SAMA: 命令付きビデオ編集のための因子分解セマンティックアンカーと運動整合

生成モデルは空間を理解する：シーン理解のための暗黙的 3D 事前知識の解放

Efficient Reasoning with Balanced Thinking

行動に先立ち視察せよ：ビジョン・ランゲージ・アクションモデルのためのビジョン基盤表現の強化

補完的強化学習

アライメントは言語モデルを記述的ではなく規範的にする

MosaicMem: 制御可能なビデオ世界モデルのためのハイブリッド空間メモリ

MetaClaw: Just Talk -- 自然環境下でメタ学習し進化するエージェント

Video-CoE: Chain of Events を用いた Video Event Prediction の強化

FunCineForge: 多様な映画シーンにおけるZero-Shot Movie Dubbingを実現するための統一データセット・ツールキットおよびモデル

Large Language ModelsのためのIn-Context Watermarks

WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド

動画推論の解明

Kinema4D：時空間具象シミュレーションのための運動学的 4D 世界モデルリング

Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル

InCoder-32B：産業シナリオ向けコード基盤モデル

MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて

HSImul3R：シミュレーション対応型人間・シーン相互作用の物理ループ内再構成

Mixture-of-Depths Attention

アテンション残差

FlowScene：マルチモーダルグラフ補正フローによるスタイル一貫性を持つ屋内シーン生成

LumosX: 個別化ビデオ生成のための、任意のアイデンティティとその属性との関連付け

LLM 向けの Y-Combinator：λ-Calculus による Long-Context Rot の解決

ProactiveBench: Multimodal Large Language Models における Proactiveness の Benchmarking

TerraScope: Pixel-Grounded Visual Reasoning for Earth Observation

Astrolabe: 蒸留された自己回帰型動画モデルのための前進プロセス強化学習の制御

HopChain: 汎用性のある視覚言語推論のためのマルチホップデータ合成

Diffusion ベースの Discrete Motion Tokenizer による意味条件と運動学的条件の橋渡し

FASTER: リアルタイムフロー VLAs の再考

3DreamBooth：高忠実度3D被写体駆動型動画生成モデル

SAMA: 命令付きビデオ編集のための因子分解セマンティックアンカーと運動整合

生成モデルは空間を理解する：シーン理解のための暗黙的 3D 事前知識の解放

Efficient Reasoning with Balanced Thinking

行動に先立ち視察せよ：ビジョン・ランゲージ・アクションモデルのためのビジョン基盤表現の強化

補完的強化学習

アライメントは言語モデルを記述的ではなく規範的にする

MosaicMem: 制御可能なビデオ世界モデルのためのハイブリッド空間メモリ

MetaClaw: Just Talk -- 自然環境下でメタ学習し進化するエージェント

Video-CoE: Chain of Events を用いた Video Event Prediction の強化

FunCineForge: 多様な映画シーンにおけるZero-Shot Movie Dubbingを実現するための統一データセット・ツールキットおよびモデル

Large Language ModelsのためのIn-Context Watermarks

WorldCam: カメラポーズを統一的な幾何学的表現として用いたインタラクティブな自己回帰的3Dゲームワールド

動画推論の解明

Kinema4D：時空間具象シミュレーションのための運動学的 4D 世界モデルリング

Qianfan-OCR: 文書知能のための統合型エンドツーエンドモデル

InCoder-32B：産業シナリオ向けコード基盤モデル

MiroThinker-1.7 & H1: 検証による高負荷研究エージェントの実現に向けて

HSImul3R：シミュレーション対応型人間・シーン相互作用の物理ループ内再構成

Mixture-of-Depths Attention

アテンション残差