HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

SocialOmni: Omni Modelsにおける音響・視覚的ソーシャル・インタラクティビティのベンチマーキング

SocialOmni: Omni Modelsにおける音響・視覚的ソーシャル・インタラクティビティのベンチマーキング

マルチモーダル

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4：高効率なMillion-Tokenコンテキスト・インテリジェンスに向けて

DeepSeek-V4：高効率なMillion-Tokenコンテキスト・インテリジェンスに向けて

生成的な観点からの空間知能の探究

マルチモーダル

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI：合成ビデオ模倣による物理ベースの器用な人間と物体の相互作用

テキストから動画

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

大規模モデル時代におけるReward Hacking：メカニズム、創発的ミスアライメント、および課題

マルチモーダル

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus：わずか1万件のオープンデータによる、フロンティア級エッジスケールDeep Research agentsの実現に向けて

エージェント

監視付き微調整

Venus Team, Sunhao Dai, Yong Deng, et al.

近未来の方策最適化

モデル学習

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Diffusion Large Language Modelによるマルチモーダル理解と生成の統合

拡散モデル

マルチモーダル

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: 生物医学自然言語処理に向けたLarge Language ModelsのInstruction Tuning

監視付き微調整

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni 技術報告書

マルチモーダル

Task Tokens: Behavior Foundation Modelを適応させるための柔軟なアプローチ

マルチモーダル

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

<title></title>

エージェント

PlayCoder: LLMが生成したGUIコードの実行可能性を実現する

コード生成

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: 大規模推論モデルにおけるTest-time Trainingのスケールアップ

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: ビデオ拡散モデルを用いた任意の視点からの3D再構成

拡散モデル

3D マシンビジョン

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: Agentの仕様および実行のための言語

エージェント

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

CoInteract: 空間構造化共生成による物理的整合性を備えた人間と物体（Human-Object）の相互作用ビデオ合成

画像から動画生成

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

Tstars-Tryon 1.0：多様なファッションアイテムに対応した、堅牢かつリアルなバーチャルTry-On

画像間変換

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

Large Language Model 推論のための高速な NF4 量子化解除カーネル

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

EasyVideoR1：ビデオ理解のためのより容易なRL

ビデオ理解

マルチモーダル

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

MultiWorld: スケーラブルなMulti-Agent Multi-Viewビデオワールドモデル

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

OpenGame: ゲームのためのOpen Agentic Coding

コード生成

エージェント

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent-World: 進化する汎用agent知能に向けた、実世界環境合成のスケーリング

エージェント

Guanting Dong, Junting Lu, Junjie Huang, et al.

OneVL: Vision-Languageによる説明を伴うワンステップの潜在的推論およびプランニング

マルチモーダル

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

識別的なテキスト表現を用いた、クラスラベルからテキストへのワンステップ画像生成の拡張

テキストから画像生成

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

ScribblePrompt: あらゆる生体医用画像に対する高速かつ柔軟なインタラクティブ・セグメンテーション

Halle E. Wong, Marianne Rakic, John Guttag, et al.

Long-VITA: 短いコンテキストにおける卓越した精度を維持しつつ、Large Multi-modal Modelsを1 million tokensまでスケーリングする

マルチモーダル

ビデオ理解

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

UI-TARS：Native AgentによるGUI自動インタラクションの先駆的研究

エージェント

マルチモーダル

Yujia Qin, Yining Ye, Junjie Fang, et al.

HunyuanVideo：大規模ビデオ生成モデルのための体系的なフレームワーク

テキストから動画

Hunyuan Foundation Model Team

MathNet：数学的推論および検索のためのグローバルなマルチモーダル・ベンチマーク

検索拡張生成

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

LLM AgentにおけるExternalization：Memory、Skills、ProtocolsおよびHarness Engineeringに関する統一的レビュー

エージェント

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Active Context Compression: LLM Agentにおける自律的メモリ管理

エージェント

SocialOmni: Omni Modelsにおける音響・視覚的ソーシャル・インタラクティビティのベンチマーキング

SocialOmni: Omni Modelsにおける音響・視覚的ソーシャル・インタラクティビティのベンチマーキング

マルチモーダル

Tianyu Xie, Jina Huang, Yuexiao Ma, et al.

DeepSeek-V4：高効率なMillion-Tokenコンテキスト・インテリジェンスに向けて

DeepSeek-V4：高効率なMillion-Tokenコンテキスト・インテリジェンスに向けて

生成的な観点からの空間知能の探究

マルチモーダル

Muzhi Zhu, Shunyao Jiang, Huanyi Zheng, et al.

DeVI：合成ビデオ模倣による物理ベースの器用な人間と物体の相互作用

テキストから動画

Hyeonwoo Kim, Jeonghwan Kim, Kyungwon Cho, et al.

大規模モデル時代におけるReward Hacking：メカニズム、創発的ミスアライメント、および課題

マルチモーダル

Xiaohua Wang, Muzhao Tian, Yuqi Zeng, et al.

DR-Venus：わずか1万件のオープンデータによる、フロンティア級エッジスケールDeep Research agentsの実現に向けて

エージェント

監視付き微調整

Venus Team, Sunhao Dai, Yong Deng, et al.

近未来の方策最適化

モデル学習

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

LLaDA2.0-Uni: Diffusion Large Language Modelによるマルチモーダル理解と生成の統合

拡散モデル

マルチモーダル

Inclusion AI, Tiwei Bie, Haoxing Chen, et al.

BioInstruct: 生物医学自然言語処理に向けたLarge Language ModelsのInstruction Tuning

監視付き微調整

Hieu Tran, Zhichao Yang, Zonghai Yao, et al.

Logics-Parsing-Omni 技術報告書

マルチモーダル

Task Tokens: Behavior Foundation Modelを適応させるための柔軟なアプローチ

マルチモーダル

Ron Vainshtein, Zohar Rimon, Shie Mannor, et al.

<title></title>

エージェント

PlayCoder: LLMが生成したGUIコードの実行可能性を実現する

コード生成

Zhiyuan Peng, Wei Tao, Xin Yin, et al.

TEMPO: 大規模推論モデルにおけるTest-time Trainingのスケールアップ

Qingyang Zhang, Xinke Kong, Haitao Wu, et al.

AnyRecon: ビデオ拡散モデルを用いた任意の視点からの3D再構成

拡散モデル

3D マシンビジョン

Yutian Chen, Shi Guo, Renbiao Jin, et al.

AgentSPEX: Agentの仕様および実行のための言語

エージェント

Pengcheng Wang, Jerry Huang, Jiarui Yao, et al.

CoInteract: 空間構造化共生成による物理的整合性を備えた人間と物体（Human-Object）の相互作用ビデオ合成

画像から動画生成

Xiangyang Luo, Xiaozhe Xin, Tao Feng, et al.

Tstars-Tryon 1.0：多様なファッションアイテムに対応した、堅牢かつリアルなバーチャルTry-On

画像間変換

Mengting Chen, Zhengrui Chen, Yongchao Du, et al.

Large Language Model 推論のための高速な NF4 量子化解除カーネル

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

EasyVideoR1：ビデオ理解のためのより容易なRL

ビデオ理解

マルチモーダル

Chuanyu Qin, Chenxu Yang, Qingyi Si, et al.

MultiWorld: スケーラブルなMulti-Agent Multi-Viewビデオワールドモデル

Haoyu Wu, Jiwen Yu, Yingtian Zou, et al.

OpenGame: ゲームのためのOpen Agentic Coding

コード生成

エージェント

Yilei Jiang, Jinyuan Hu, Qianyin Xiao, et al.

Agent-World: 進化する汎用agent知能に向けた、実世界環境合成のスケーリング

エージェント

Guanting Dong, Junting Lu, Junjie Huang, et al.

OneVL: Vision-Languageによる説明を伴うワンステップの潜在的推論およびプランニング

マルチモーダル

Jinghui Lu, Jiayi Guan, Zhijian Huang, et al.

識別的なテキスト表現を用いた、クラスラベルからテキストへのワンステップ画像生成の拡張

テキストから画像生成

Chenxi Zhao, Chen Zhu, Xiaokun Feng, et al.

ScribblePrompt: あらゆる生体医用画像に対する高速かつ柔軟なインタラクティブ・セグメンテーション

Halle E. Wong, Marianne Rakic, John Guttag, et al.

Long-VITA: 短いコンテキストにおける卓越した精度を維持しつつ、Large Multi-modal Modelsを1 million tokensまでスケーリングする

マルチモーダル

ビデオ理解

Yunhang Shen, Chaoyou Fu, Shaoqi Dong, et al.

UI-TARS：Native AgentによるGUI自動インタラクションの先駆的研究

エージェント

マルチモーダル

Yujia Qin, Yining Ye, Junjie Fang, et al.

HunyuanVideo：大規模ビデオ生成モデルのための体系的なフレームワーク

テキストから動画

Hunyuan Foundation Model Team

MathNet：数学的推論および検索のためのグローバルなマルチモーダル・ベンチマーク

検索拡張生成

Shaden Alshammari, Kevin Wen, Abrar Zainal, et al.

LLM AgentにおけるExternalization：Memory、Skills、ProtocolsおよびHarness Engineeringに関する統一的レビュー

エージェント

Chenyu Zhou, Huacan Chai, Wenteng Chen, et al.

Active Context Compression: LLM Agentにおける自律的メモリ管理

エージェント

生成的な観点からの空間知能の探究

DeVI：合成ビデオ模倣による物理ベースの器用な人間と物体の相互作用

大規模モデル時代におけるReward Hacking：メカニズム、創発的ミスアライメント、および課題

DR-Venus：わずか1万件のオープンデータによる、フロンティア級エッジスケールDeep Research agentsの実現に向けて

近未来の方策最適化

LLaDA2.0-Uni: Diffusion Large Language Modelによるマルチモーダル理解と生成の統合

BioInstruct: 生物医学自然言語処理に向けたLarge Language ModelsのInstruction Tuning

Logics-Parsing-Omni 技術報告書

Task Tokens: Behavior Foundation Modelを適応させるための柔軟なアプローチ

PlayCoder: LLMが生成したGUIコードの実行可能性を実現する

TEMPO: 大規模推論モデルにおけるTest-time Trainingのスケールアップ

AnyRecon: ビデオ拡散モデルを用いた任意の視点からの3D再構成

AgentSPEX: Agentの仕様および実行のための言語

CoInteract: 空間構造化共生成による物理的整合性を備えた人間と物体（Human-Object）の相互作用ビデオ合成

Tstars-Tryon 1.0：多様なファッションアイテムに対応した、堅牢かつリアルなバーチャルTry-On

Large Language Model 推論のための高速な NF4 量子化解除カーネル

EasyVideoR1：ビデオ理解のためのより容易なRL

MultiWorld: スケーラブルなMulti-Agent Multi-Viewビデオワールドモデル

OpenGame: ゲームのためのOpen Agentic Coding

Agent-World: 進化する汎用agent知能に向けた、実世界環境合成のスケーリング

OneVL: Vision-Languageによる説明を伴うワンステップの潜在的推論およびプランニング

識別的なテキスト表現を用いた、クラスラベルからテキストへのワンステップ画像生成の拡張

ScribblePrompt: あらゆる生体医用画像に対する高速かつ柔軟なインタラクティブ・セグメンテーション

Long-VITA: 短いコンテキストにおける卓越した精度を維持しつつ、Large Multi-modal Modelsを1 million tokensまでスケーリングする

UI-TARS：Native AgentによるGUI自動インタラクションの先駆的研究

HunyuanVideo：大規模ビデオ生成モデルのための体系的なフレームワーク

MathNet：数学的推論および検索のためのグローバルなマルチモーダル・ベンチマーク

LLM AgentにおけるExternalization：Memory、Skills、ProtocolsおよびHarness Engineeringに関する統一的レビュー

Active Context Compression: LLM Agentにおける自律的メモリ管理

生成的な観点からの空間知能の探究

DeVI：合成ビデオ模倣による物理ベースの器用な人間と物体の相互作用

大規模モデル時代におけるReward Hacking：メカニズム、創発的ミスアライメント、および課題

DR-Venus：わずか1万件のオープンデータによる、フロンティア級エッジスケールDeep Research agentsの実現に向けて

近未来の方策最適化

LLaDA2.0-Uni: Diffusion Large Language Modelによるマルチモーダル理解と生成の統合

BioInstruct: 生物医学自然言語処理に向けたLarge Language ModelsのInstruction Tuning

Logics-Parsing-Omni 技術報告書

Task Tokens: Behavior Foundation Modelを適応させるための柔軟なアプローチ

PlayCoder: LLMが生成したGUIコードの実行可能性を実現する

TEMPO: 大規模推論モデルにおけるTest-time Trainingのスケールアップ

AnyRecon: ビデオ拡散モデルを用いた任意の視点からの3D再構成

AgentSPEX: Agentの仕様および実行のための言語

CoInteract: 空間構造化共生成による物理的整合性を備えた人間と物体（Human-Object）の相互作用ビデオ合成

Tstars-Tryon 1.0：多様なファッションアイテムに対応した、堅牢かつリアルなバーチャルTry-On

Large Language Model 推論のための高速な NF4 量子化解除カーネル

EasyVideoR1：ビデオ理解のためのより容易なRL

MultiWorld: スケーラブルなMulti-Agent Multi-Viewビデオワールドモデル

OpenGame: ゲームのためのOpen Agentic Coding

Agent-World: 進化する汎用agent知能に向けた、実世界環境合成のスケーリング

OneVL: Vision-Languageによる説明を伴うワンステップの潜在的推論およびプランニング

識別的なテキスト表現を用いた、クラスラベルからテキストへのワンステップ画像生成の拡張

ScribblePrompt: あらゆる生体医用画像に対する高速かつ柔軟なインタラクティブ・セグメンテーション

Long-VITA: 短いコンテキストにおける卓越した精度を維持しつつ、Large Multi-modal Modelsを1 million tokensまでスケーリングする

UI-TARS：Native AgentによるGUI自動インタラクションの先駆的研究

HunyuanVideo：大規模ビデオ生成モデルのための体系的なフレームワーク

MathNet：数学的推論および検索のためのグローバルなマルチモーダル・ベンチマーク

LLM AgentにおけるExternalization：Memory、Skills、ProtocolsおよびHarness Engineeringに関する統一的レビュー

Active Context Compression: LLM Agentにおける自律的メモリ管理