HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

SkillClaw: Agentic Evolverによってスキルを集合的に進化させる

SkillClaw: Agentic Evolverによってスキルを集合的に進化させる

エージェント

Ziyu Ma, Shidong Yang, Yuxiang Ji, et al.

MDPBench: 実世界シナリオにおける多言語ドキュメントパースのためのベンチマーク

MDPBench: 実世界シナリオにおける多言語ドキュメントパースのためのベンチマーク

ドキュメント理解

Zhang Li, Zhibo Lin, Qiang Liu, et al.

TC-AE: Deep Compression AutoencoderにおけるToken Capacityの解放

ディープラーニング

Teng Li, Ziyuan Huang, Cong Chen, et al.

INSPATIO-WORLD: 時空間自己回帰モデリングによるリアルタイム4D World Simulator

InSpatio Team, Donghui Shen, Guofeng Zhang, et al.

FlowInOne: Image-in, Image-out の Flow Matching としてマルチモーダル Generation を統一する

Junchao Yi, Rui Zhao, Jiahao Tang, et al.

MARS：実現する Autoregressive Models による Multi-Token Generation

テキスト生成

Ziqi Jin, Lei Wang, Ziwei Luo, et al.

ピクセルではなくストロークで考える：交互的なReasoningによるプロセス駆動型画像生成

テキストから画像生成

Lei Zhang, Junjiao Tian, Zhipeng Fan, et al.

RAGEN-2：Agentic RLにおけるReasoning Collapse（推論の崩壊）

エージェント

Zihan Wang, Chi Gui, Xing Jin, et al.

Vanast: 合成されたTriplet Supervisionを用いたHuman Image AnimationによるVirtual Try-On

画像から動画生成

拡散モデル

Hyunsoo Cha, Wonjung Woo, Byungjun Kim, et al.

ThinkTwice: 推論とSelf-RefinementのためにLarge Language Modelsを共同で最適化する手法

モデル学習

Difan Jiao, Qianfeng Wen, Blair Yang, et al.

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

コード生成

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Agent Trajectories からの Retrieval を学習する

エージェント

検索拡張生成

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Claw-Eval：迈向自主 Agent 的可信评估

エージェント

ベンチマーク

Bowen Ye, Rang Li, Qibin Yang, et al.

Video-MME-v2：向着全面视频理解 Benchmark 的下一阶段迈进

ビデオ理解

視覚質問応答

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

GrandCode: Agentic Reinforcement Learningを通じて競技プログラミングにおけるGrandmasterレベルを実現する

コード生成

エージェント

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para: VLAモデルにおける言い換えに対する堅牢性を評価するための診断用benchmarkおよび評価指標

マルチモーダル

マルチモーダル表現

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

TriAttention: 三角関数を用いたKV Compressionによる効率的なLong Reasoning

Weian Mao, Xi Lin, Wei Huang, et al.

MinerU2.5-Pro：大規模なData-Centricな文書解析における限界への挑戦

ドキュメント理解

Bin Wang, Tianyao He, Linke Ouyang, et al.

Adam's Law：Large Language Modelsにおけるテキスト出現頻度の法則

監視付き微調整

Hongyuan Adam Lu, Z.L., Victor Wei, et al.

OpenWorldLib：高度な World Models に関する統一された Codebase および定義

エージェント

DataFlow Team, Bohan Zeng, Daili Hua, et al.

WAXAL：大規模多言語アフリカ言語音声コーパス

データセット

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, et al.

DRACO：深層研究の正確性、完全性及び客観性に関するクロスドメインベンチマーク

ベンチマーク

検索拡張生成

Joey Zhong, Hao Zhang, Clare Southern, et al.

HuatuoGPT-o1：LLMs による医療領域の複雑推論 toward

Junying Chen, Zhenyang Cai, Ke Ji, et al.

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

エージェント

Prince Zizhuang Wang, Shuli Jiang

InCoder-32B-Thinking：思考のための産業用コード世界モデル

Jian Yang, Wei Zhang, Jiajun Wu, et al.

Agentic-MME: Agentic Capability がマルチモーダル知性に真にもたらすものとは？

マルチモーダル

エージェント

Qianshan Wei, Yishan Yang, Siyi Wang, et al.

Token Warping により、MLLMs は近接視点からの観察が可能となる

マルチモーダル

マルチモーダル表現

Phillip Y. Lee, Chanho Park, Mingue Park, et al.

Self-Distilled RLVR

Chenxu Yang, Chuanyu Qin, Qingyi Si, et al.

ストリーミング動画理解のためのシンプルなベースライン

ビデオ理解

視覚質問応答

Yujiao Shen, Shulin Tian, Jingkang Yang, et al.

CORAL：オープンエンドな発見に向けた自律型マルチエージェント進化への道

エージェント

Ao Qu, Han Zheng, Zijian Zhou, et al.

操作可能な視覚表現

マルチモーダル

マルチモーダル表現

Jona Ruthardt, Manu Gaur, Deva Ramanan, et al.

SKILL0: 文脈内エージェント強化学習によるスキルの内面化

エージェント

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, et al.

SkillClaw: Agentic Evolverによってスキルを集合的に進化させる

SkillClaw: Agentic Evolverによってスキルを集合的に進化させる

エージェント

Ziyu Ma, Shidong Yang, Yuxiang Ji, et al.

MDPBench: 実世界シナリオにおける多言語ドキュメントパースのためのベンチマーク

MDPBench: 実世界シナリオにおける多言語ドキュメントパースのためのベンチマーク

ドキュメント理解

Zhang Li, Zhibo Lin, Qiang Liu, et al.

TC-AE: Deep Compression AutoencoderにおけるToken Capacityの解放

ディープラーニング

Teng Li, Ziyuan Huang, Cong Chen, et al.

INSPATIO-WORLD: 時空間自己回帰モデリングによるリアルタイム4D World Simulator

InSpatio Team, Donghui Shen, Guofeng Zhang, et al.

FlowInOne: Image-in, Image-out の Flow Matching としてマルチモーダル Generation を統一する

Junchao Yi, Rui Zhao, Jiahao Tang, et al.

MARS：実現する Autoregressive Models による Multi-Token Generation

テキスト生成

Ziqi Jin, Lei Wang, Ziwei Luo, et al.

ピクセルではなくストロークで考える：交互的なReasoningによるプロセス駆動型画像生成

テキストから画像生成

Lei Zhang, Junjiao Tian, Zhipeng Fan, et al.

RAGEN-2：Agentic RLにおけるReasoning Collapse（推論の崩壊）

エージェント

Zihan Wang, Chi Gui, Xing Jin, et al.

Vanast: 合成されたTriplet Supervisionを用いたHuman Image AnimationによるVirtual Try-On

画像から動画生成

拡散モデル

Hyunsoo Cha, Wonjung Woo, Byungjun Kim, et al.

ThinkTwice: 推論とSelf-RefinementのためにLarge Language Modelsを共同で最適化する手法

モデル学習

Difan Jiao, Qianfeng Wen, Blair Yang, et al.

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

コード生成

Hui Sun, Yun-Ji Zhang, Zheng Xie, et al.

Agent Trajectories からの Retrieval を学習する

エージェント

検索拡張生成

Yuqi Zhou, Sunhao Dai, Changle Qu, et al.

Claw-Eval：迈向自主 Agent 的可信评估

エージェント

ベンチマーク

Bowen Ye, Rang Li, Qibin Yang, et al.

Video-MME-v2：向着全面视频理解 Benchmark 的下一阶段迈进

ビデオ理解

視覚質問応答

Chaoyou Fu, Haozhi Yuan, Yuhao Dong, et al.

GrandCode: Agentic Reinforcement Learningを通じて競技プログラミングにおけるGrandmasterレベルを実現する

コード生成

エージェント

DeepReinforce Team, Xiaoya Li, Xiaofei Sun, et al.

LIBERO-Para: VLAモデルにおける言い換えに対する堅牢性を評価するための診断用benchmarkおよび評価指標

マルチモーダル

マルチモーダル表現

Chanyoung Kim, Minwoo Kim, Minseok Kang, et al.

TriAttention: 三角関数を用いたKV Compressionによる効率的なLong Reasoning

Weian Mao, Xi Lin, Wei Huang, et al.

MinerU2.5-Pro：大規模なData-Centricな文書解析における限界への挑戦

ドキュメント理解

Bin Wang, Tianyao He, Linke Ouyang, et al.

Adam's Law：Large Language Modelsにおけるテキスト出現頻度の法則

監視付き微調整

Hongyuan Adam Lu, Z.L., Victor Wei, et al.

OpenWorldLib：高度な World Models に関する統一された Codebase および定義

エージェント

DataFlow Team, Bohan Zeng, Daili Hua, et al.

WAXAL：大規模多言語アフリカ言語音声コーパス

データセット

Abdoulaye Diack, Perry Nelson, Kwaku Agbesi, et al.

DRACO：深層研究の正確性、完全性及び客観性に関するクロスドメインベンチマーク

ベンチマーク

検索拡張生成

Joey Zhong, Hao Zhang, Clare Southern, et al.

HuatuoGPT-o1：LLMs による医療領域の複雑推論 toward

Junying Chen, Zhenyang Cai, Ke Ji, et al.

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

エージェント

Prince Zizhuang Wang, Shuli Jiang

InCoder-32B-Thinking：思考のための産業用コード世界モデル

Jian Yang, Wei Zhang, Jiajun Wu, et al.

Agentic-MME: Agentic Capability がマルチモーダル知性に真にもたらすものとは？

マルチモーダル

エージェント

Qianshan Wei, Yishan Yang, Siyi Wang, et al.

Token Warping により、MLLMs は近接視点からの観察が可能となる

マルチモーダル

マルチモーダル表現

Phillip Y. Lee, Chanho Park, Mingue Park, et al.

Self-Distilled RLVR

Chenxu Yang, Chuanyu Qin, Qingyi Si, et al.

ストリーミング動画理解のためのシンプルなベースライン

ビデオ理解

視覚質問応答

Yujiao Shen, Shulin Tian, Jingkang Yang, et al.

CORAL：オープンエンドな発見に向けた自律型マルチエージェント進化への道

エージェント

Ao Qu, Han Zheng, Zijian Zhou, et al.

操作可能な視覚表現

マルチモーダル

マルチモーダル表現

Jona Ruthardt, Manu Gaur, Deva Ramanan, et al.

SKILL0: 文脈内エージェント強化学習によるスキルの内面化

エージェント

Zhengxi Lu, Zhiyuan Yao, Jinyang Wu, et al.

TC-AE: Deep Compression AutoencoderにおけるToken Capacityの解放

INSPATIO-WORLD: 時空間自己回帰モデリングによるリアルタイム4D World Simulator

FlowInOne: Image-in, Image-out の Flow Matching としてマルチモーダル Generation を統一する

MARS：実現する Autoregressive Models による Multi-Token Generation

ピクセルではなくストロークで考える：交互的なReasoningによるプロセス駆動型画像生成

RAGEN-2：Agentic RLにおけるReasoning Collapse（推論の崩壊）

Vanast: 合成されたTriplet Supervisionを用いたHuman Image AnimationによるVirtual Try-On

ThinkTwice: 推論とSelf-RefinementのためにLarge Language Modelsを共同で最適化する手法

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Agent Trajectories からの Retrieval を学習する

Claw-Eval：迈向自主 Agent 的可信评估

Video-MME-v2：向着全面视频理解 Benchmark 的下一阶段迈进

GrandCode: Agentic Reinforcement Learningを通じて競技プログラミングにおけるGrandmasterレベルを実現する

LIBERO-Para: VLAモデルにおける言い換えに対する堅牢性を評価するための診断用benchmarkおよび評価指標

TriAttention: 三角関数を用いたKV Compressionによる効率的なLong Reasoning

MinerU2.5-Pro：大規模なData-Centricな文書解析における限界への挑戦

Adam's Law：Large Language Modelsにおけるテキスト出現頻度の法則

OpenWorldLib：高度な World Models に関する統一された Codebase および定義

WAXAL：大規模多言語アフリカ言語音声コーパス

DRACO：深層研究の正確性、完全性及び客観性に関するクロスドメインベンチマーク

HuatuoGPT-o1：LLMs による医療領域の複雑推論 toward

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

InCoder-32B-Thinking：思考のための産業用コード世界モデル

Agentic-MME: Agentic Capability がマルチモーダル知性に真にもたらすものとは？

Token Warping により、MLLMs は近接視点からの観察が可能となる

Self-Distilled RLVR

ストリーミング動画理解のためのシンプルなベースライン

CORAL：オープンエンドな発見に向けた自律型マルチエージェント進化への道

操作可能な視覚表現

SKILL0: 文脈内エージェント強化学習によるスキルの内面化

TC-AE: Deep Compression AutoencoderにおけるToken Capacityの解放

INSPATIO-WORLD: 時空間自己回帰モデリングによるリアルタイム4D World Simulator

FlowInOne: Image-in, Image-out の Flow Matching としてマルチモーダル Generation を統一する

MARS：実現する Autoregressive Models による Multi-Token Generation

ピクセルではなくストロークで考える：交互的なReasoningによるプロセス駆動型画像生成

RAGEN-2：Agentic RLにおけるReasoning Collapse（推論の崩壊）

Vanast: 合成されたTriplet Supervisionを用いたHuman Image AnimationによるVirtual Try-On

ThinkTwice: 推論とSelf-RefinementのためにLarge Language Modelsを共同で最適化する手法

ACES: Who Tests the Tests? Leave-One-Out AUC Consistency for Code Generation

Agent Trajectories からの Retrieval を学習する

Claw-Eval：迈向自主 Agent 的可信评估

Video-MME-v2：向着全面视频理解 Benchmark 的下一阶段迈进

GrandCode: Agentic Reinforcement Learningを通じて競技プログラミングにおけるGrandmasterレベルを実現する

LIBERO-Para: VLAモデルにおける言い換えに対する堅牢性を評価するための診断用benchmarkおよび評価指標

TriAttention: 三角関数を用いたKV Compressionによる効率的なLong Reasoning

MinerU2.5-Pro：大規模なData-Centricな文書解析における限界への挑戦

Adam's Law：Large Language Modelsにおけるテキスト出現頻度の法則

OpenWorldLib：高度な World Models に関する統一された Codebase および定義

WAXAL：大規模多言語アフリカ言語音声コーパス

DRACO：深層研究の正確性、完全性及び客観性に関するクロスドメインベンチマーク

HuatuoGPT-o1：LLMs による医療領域の複雑推論 toward

AgentSocialBench: Evaluating Privacy Risks in Human-Centered Agentic Social Networks

InCoder-32B-Thinking：思考のための産業用コード世界モデル

Agentic-MME: Agentic Capability がマルチモーダル知性に真にもたらすものとは？

Token Warping により、MLLMs は近接視点からの観察が可能となる

Self-Distilled RLVR

ストリーミング動画理解のためのシンプルなベースライン

CORAL：オープンエンドな発見に向けた自律型マルチエージェント進化への道

操作可能な視覚表現

SKILL0: 文脈内エージェント強化学習によるスキルの内面化