HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

「損切り」の技術！効率的な並列推理に向けた早期Path Pruningの学習
（※注：ご要望に基づき、タイトルとしての学術的な響きを重視して翻訳いたしました。文脈に応じて「Cut Your Losses」を「損失を最小限に抑える」などの意訳にすることも可能ですが、論文タイトルとしてのインパクトを考慮しています。）

「損切り」の技術！効率的な並列推理に向けた早期Path Pruningの学習（※注：ご要望に基づき、タイトルとしての学術的な響きを重視して翻訳いたしました。文脈に応じて「Cut Your Losses」を「損失を最小限に抑える」などの意訳にすることも可能ですが、論文タイトルとしてのインパクトを考慮しています。）

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Qwen3.5-Omni 技術報告書

Qwen3.5-Omni 技術報告書

マルチモーダル

効率的かつコスト効率の高い Retrieval-Augmented Generation システムに向けた Web Retrieval-Aware Chunking (W-RAC)

検索拡張生成

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

PersonaVLM：長期的なパーソナライズを実現するマルチモーダル LLMs

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

データや最適化を介さない最大脳損傷：Sign-Bit FlipによるNeural Networkの破壊

ディープラーニング

Ido Galil, Moshe Kimhi, Ran El-Yaniv

Diffusion Probabilistic ModelsにおけるSNR-t Biasの解明

拡散モデル

Meng Yu, Lei Sun, Jianhao Zeng, et al.

マルチモーダルOCR：ドキュメントからのあらゆる情報の解析

ドキュメント理解

Handong Zheng, Yumeng Li, Kaile Zhang, et al.

Granite-speech：強力な英語ASR能力を備えたオープンソースのSpeech-aware LLMs

音声および音声処理

George Saon, Avihu Dekel, Alexander Brooks, et al.

Fish-Speech: Large Language Modelsを活用した高度な多言語Text-to-Speech合成

Shijia Liao, Yuxuan Wang, Tianyu Li, et al.

ビデオオブジェクトおよびインタラクションの削除

Saman Motamed, William Harvey, Benjamin Klein, et al.

VoxCPM: 文脈適応型音声生成および忠実なボイスクローニングのためのTokenizer-Free TTS

拡散モデル

OmniVoice: Diffusion Language Modelsを用いた多言語ゼロショットText-to-Speechに向けた研究

拡散モデル

Han Zhu, Lingxuan Ye, Wei Kang, et al.

VisionがTextへと変わる時：Vision-Language ModelsにおけるOCRルーティングのボトルネックの特定

マルチモーダル

Jonathan Steinberg, Oren Gal

OCRか、それともNotか？実世界の広範なデータセットを用いた、MLLMs時代におけるドキュメント情報抽出の再考

ドキュメント理解

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet：ゲノム配列学習のためのスケーラブルかつ階層的なFoundation Model

ディープラーニング

ゲノミクス

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

ニューラルコンピュータ

ディープラーニング

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

ASGuard: 標的型Jailbreaking Attackを軽減するためのActivation-Scaling Guard

監視付き微調整

Yein Park, Jungwoo Park, Jaewoo Kang

GlobalSplat: Global Scene Tokensを用いた効率的なFeed-Forward 3D Gaussian Splatting

3D マシンビジョン

Roni Itkin, Noam Issachar, Yehonatan Keypur, et al.

推論モデルをどのようにFine-Tuneすべきか？Studentの特性に整合したSFTデータを合成するためのTeacher-Student協調フレームワーク

監視付き微調整

コード生成

Zixian Huang, Kaichen Yang, Xu Huang, et al.

RAD-2: Generator-Discriminator フレームワークにおける Reinforcement Learning のスケーリング

拡散モデル

Hao Gao, Shaoyu Chen, Yifan Zhu, et al.

DR$^{3}$-Eval：面向真实且可复现的深度研究评估 (Deep Research Evaluation)

ベンチマーク

検索拡張生成

Qianqian Xie, Qingheng Xiong, He Zhu, et al.

HY-World 2.0：一种用于 3D 世界重建、生成与仿真的 Multi-Modal World Model

マルチモーダル

Team HY-World, Chenjie Cao, Xuhui Zuo, et al.

pi0.7: 発現的な能力を備えたステアラブルな汎用ロボット基盤モデル（Steerable Generalist Robotic Foundation Model）

マルチモーダル

マルチモーダル表現

Bo Ai, Ali Amin, Raichelle Aniceto, et al.

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

エージェント

Tong Wei, Yijun Yang, Junliang Xing, et al.

Large Language ModelsのためのAgent Skills：アーキテクチャ、獲得、セキュリティ、および今後の展望

エージェント

Ranjun Xu, Yang Yan

空間理論：Foundation Modelsは能動的な探索を通じて空間的信念を構築できるか？

エムボディドインテリジェンス

エージェント

Pingyue Zhang, Zihan Huang, Yue Wang, et al.

メモリ転移学習：Coding Agentにおけるドメインを跨いだメモリの転移メカニズム

エージェント

コード生成

Kangsan Kim, Minki Kang, Taeil Kim, et al.

OccuBench: 言語 World Models を介した実世界の専門的タスクにおける AI Agents の評価

ベンチマーク

エージェント

Xiaomeng Hu, Yinger Zhang, Fei Huang, et al.

SpatialEvo: 決定論的な幾何学的環境を通じた自己進化型空間インテリジェンス

3D マシンビジョン

視覚質問応答

Dinging Li, Yingxiu Zhao, Xinrui Cheng, et al.

RationalRewards: Reasoning Rewards が Training と Test Time の両方において Visual Generation を Scale する

テキストから画像生成

Haozhe Wang, Cong Wei, Weiming Ren, et al.

Seedance 2.0: 世界の複雑性に対応するビデオ生成技術の進化

マルチモーダル

Team Seedance, De Chen, Liyang Chen, et al.

GameWorld：面向多模态 Game Agents 标准化与可验证评估的研究

エージェント

ベンチマーク

Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, et al.

「損切り」の技術！効率的な並列推理に向けた早期Path Pruningの学習
（※注：ご要望に基づき、タイトルとしての学術的な響きを重視して翻訳いたしました。文脈に応じて「Cut Your Losses」を「損失を最小限に抑える」などの意訳にすることも可能ですが、論文タイトルとしてのインパクトを考慮しています。）

「損切り」の技術！効率的な並列推理に向けた早期Path Pruningの学習（※注：ご要望に基づき、タイトルとしての学術的な響きを重視して翻訳いたしました。文脈に応じて「Cut Your Losses」を「損失を最小限に抑える」などの意訳にすることも可能ですが、論文タイトルとしてのインパクトを考慮しています。）

Jiaxi Bi, Tongxu Luo, Wenyu Du, et al.

Qwen3.5-Omni 技術報告書

Qwen3.5-Omni 技術報告書

マルチモーダル

効率的かつコスト効率の高い Retrieval-Augmented Generation システムに向けた Web Retrieval-Aware Chunking (W-RAC)

検索拡張生成

Uday Allu, Sonu Kedia, Tanmay Odapally, et al.

PersonaVLM：長期的なパーソナライズを実現するマルチモーダル LLMs

Chang Nie, Chaoyou Fu, Yifan Zhang, et al.

データや最適化を介さない最大脳損傷：Sign-Bit FlipによるNeural Networkの破壊

ディープラーニング

Ido Galil, Moshe Kimhi, Ran El-Yaniv

Diffusion Probabilistic ModelsにおけるSNR-t Biasの解明

拡散モデル

Meng Yu, Lei Sun, Jianhao Zeng, et al.

マルチモーダルOCR：ドキュメントからのあらゆる情報の解析

ドキュメント理解

Handong Zheng, Yumeng Li, Kaile Zhang, et al.

Granite-speech：強力な英語ASR能力を備えたオープンソースのSpeech-aware LLMs

音声および音声処理

George Saon, Avihu Dekel, Alexander Brooks, et al.

Fish-Speech: Large Language Modelsを活用した高度な多言語Text-to-Speech合成

Shijia Liao, Yuxuan Wang, Tianyu Li, et al.

ビデオオブジェクトおよびインタラクションの削除

Saman Motamed, William Harvey, Benjamin Klein, et al.

VoxCPM: 文脈適応型音声生成および忠実なボイスクローニングのためのTokenizer-Free TTS

拡散モデル

OmniVoice: Diffusion Language Modelsを用いた多言語ゼロショットText-to-Speechに向けた研究

拡散モデル

Han Zhu, Lingxuan Ye, Wei Kang, et al.

VisionがTextへと変わる時：Vision-Language ModelsにおけるOCRルーティングのボトルネックの特定

マルチモーダル

Jonathan Steinberg, Oren Gal

OCRか、それともNotか？実世界の広範なデータセットを用いた、MLLMs時代におけるドキュメント情報抽出の再考

ドキュメント理解

Jiyuan Shen, Peiyue Yuan, Atin Ghosh, et al.

dnaHNet：ゲノム配列学習のためのスケーラブルかつ階層的なFoundation Model

ディープラーニング

ゲノミクス

Arnav Shah, Junzhe Li, Parsa Idehpour, et al.

ニューラルコンピュータ

ディープラーニング

Mingchen Zhuge, Changsheng Zhao, Haozhe Liu, et al.

ASGuard: 標的型Jailbreaking Attackを軽減するためのActivation-Scaling Guard

監視付き微調整

Yein Park, Jungwoo Park, Jaewoo Kang

GlobalSplat: Global Scene Tokensを用いた効率的なFeed-Forward 3D Gaussian Splatting

3D マシンビジョン

Roni Itkin, Noam Issachar, Yehonatan Keypur, et al.

推論モデルをどのようにFine-Tuneすべきか？Studentの特性に整合したSFTデータを合成するためのTeacher-Student協調フレームワーク

監視付き微調整

コード生成

Zixian Huang, Kaichen Yang, Xu Huang, et al.

RAD-2: Generator-Discriminator フレームワークにおける Reinforcement Learning のスケーリング

拡散モデル

Hao Gao, Shaoyu Chen, Yifan Zhu, et al.

DR$^{3}$-Eval：面向真实且可复现的深度研究评估 (Deep Research Evaluation)

ベンチマーク

検索拡張生成

Qianqian Xie, Qingheng Xiong, He Zhu, et al.

HY-World 2.0：一种用于 3D 世界重建、生成与仿真的 Multi-Modal World Model

マルチモーダル

Team HY-World, Chenjie Cao, Xuhui Zuo, et al.

pi0.7: 発現的な能力を備えたステアラブルな汎用ロボット基盤モデル（Steerable Generalist Robotic Foundation Model）

マルチモーダル

マルチモーダル表現

Bo Ai, Ali Amin, Raichelle Aniceto, et al.

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

エージェント

Tong Wei, Yijun Yang, Junliang Xing, et al.

Large Language ModelsのためのAgent Skills：アーキテクチャ、獲得、セキュリティ、および今後の展望

エージェント

Ranjun Xu, Yang Yan

空間理論：Foundation Modelsは能動的な探索を通じて空間的信念を構築できるか？

エムボディドインテリジェンス

エージェント

Pingyue Zhang, Zihan Huang, Yue Wang, et al.

メモリ転移学習：Coding Agentにおけるドメインを跨いだメモリの転移メカニズム

エージェント

コード生成

Kangsan Kim, Minki Kang, Taeil Kim, et al.

OccuBench: 言語 World Models を介した実世界の専門的タスクにおける AI Agents の評価

ベンチマーク

エージェント

Xiaomeng Hu, Yinger Zhang, Fei Huang, et al.

SpatialEvo: 決定論的な幾何学的環境を通じた自己進化型空間インテリジェンス

3D マシンビジョン

視覚質問応答

Dinging Li, Yingxiu Zhao, Xinrui Cheng, et al.

RationalRewards: Reasoning Rewards が Training と Test Time の両方において Visual Generation を Scale する

テキストから画像生成

Haozhe Wang, Cong Wei, Weiming Ren, et al.

Seedance 2.0: 世界の複雑性に対応するビデオ生成技術の進化

マルチモーダル

Team Seedance, De Chen, Liyang Chen, et al.

GameWorld：面向多模态 Game Agents 标准化与可验证评估的研究

エージェント

ベンチマーク

Mingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, et al.

効率的かつコスト効率の高い Retrieval-Augmented Generation システムに向けた Web Retrieval-Aware Chunking (W-RAC)

PersonaVLM：長期的なパーソナライズを実現するマルチモーダル LLMs

データや最適化を介さない最大脳損傷：Sign-Bit FlipによるNeural Networkの破壊

Diffusion Probabilistic ModelsにおけるSNR-t Biasの解明

マルチモーダルOCR：ドキュメントからのあらゆる情報の解析

Granite-speech：強力な英語ASR能力を備えたオープンソースのSpeech-aware LLMs

Fish-Speech: Large Language Modelsを活用した高度な多言語Text-to-Speech合成

ビデオオブジェクトおよびインタラクションの削除

VoxCPM: 文脈適応型音声生成および忠実なボイスクローニングのためのTokenizer-Free TTS

OmniVoice: Diffusion Language Modelsを用いた多言語ゼロショットText-to-Speechに向けた研究

VisionがTextへと変わる時：Vision-Language ModelsにおけるOCRルーティングのボトルネックの特定

OCRか、それともNotか？実世界の広範なデータセットを用いた、MLLMs時代におけるドキュメント情報抽出の再考

dnaHNet：ゲノム配列学習のためのスケーラブルかつ階層的なFoundation Model

ニューラルコンピュータ

ASGuard: 標的型Jailbreaking Attackを軽減するためのActivation-Scaling Guard

GlobalSplat: Global Scene Tokensを用いた効率的なFeed-Forward 3D Gaussian Splatting

推論モデルをどのようにFine-Tuneすべきか？Studentの特性に整合したSFTデータを合成するためのTeacher-Student協調フレームワーク

RAD-2: Generator-Discriminator フレームワークにおける Reinforcement Learning のスケーリング

DR $^{3}$ -Eval：面向真实且可复现的深度研究评估 (Deep Research Evaluation)

HY-World 2.0：一种用于 3D 世界重建、生成与仿真的 Multi-Modal World Model

pi0.7: 発現的な能力を備えたステアラブルな汎用ロボット基盤モデル（Steerable Generalist Robotic Foundation Model）

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Large Language ModelsのためのAgent Skills：アーキテクチャ、獲得、セキュリティ、および今後の展望

空間理論：Foundation Modelsは能動的な探索を通じて空間的信念を構築できるか？

メモリ転移学習：Coding Agentにおけるドメインを跨いだメモリの転移メカニズム

OccuBench: 言語 World Models を介した実世界の専門的タスクにおける AI Agents の評価

SpatialEvo: 決定論的な幾何学的環境を通じた自己進化型空間インテリジェンス

RationalRewards: Reasoning Rewards が Training と Test Time の両方において Visual Generation を Scale する

Seedance 2.0: 世界の複雑性に対応するビデオ生成技術の進化

GameWorld：面向多模态 Game Agents 标准化与可验证评估的研究

効率的かつコスト効率の高い Retrieval-Augmented Generation システムに向けた Web Retrieval-Aware Chunking (W-RAC)

PersonaVLM：長期的なパーソナライズを実現するマルチモーダル LLMs

データや最適化を介さない最大脳損傷：Sign-Bit FlipによるNeural Networkの破壊

Diffusion Probabilistic ModelsにおけるSNR-t Biasの解明

マルチモーダルOCR：ドキュメントからのあらゆる情報の解析

Granite-speech：強力な英語ASR能力を備えたオープンソースのSpeech-aware LLMs

Fish-Speech: Large Language Modelsを活用した高度な多言語Text-to-Speech合成

ビデオオブジェクトおよびインタラクションの削除

VoxCPM: 文脈適応型音声生成および忠実なボイスクローニングのためのTokenizer-Free TTS

OmniVoice: Diffusion Language Modelsを用いた多言語ゼロショットText-to-Speechに向けた研究

VisionがTextへと変わる時：Vision-Language ModelsにおけるOCRルーティングのボトルネックの特定

OCRか、それともNotか？実世界の広範なデータセットを用いた、MLLMs時代におけるドキュメント情報抽出の再考

dnaHNet：ゲノム配列学習のためのスケーラブルかつ階層的なFoundation Model

ニューラルコンピュータ

ASGuard: 標的型Jailbreaking Attackを軽減するためのActivation-Scaling Guard

GlobalSplat: Global Scene Tokensを用いた効率的なFeed-Forward 3D Gaussian Splatting

推論モデルをどのようにFine-Tuneすべきか？Studentの特性に整合したSFTデータを合成するためのTeacher-Student協調フレームワーク

RAD-2: Generator-Discriminator フレームワークにおける Reinforcement Learning のスケーリング

DR $^{3}$ -Eval：面向真实且可复现的深度研究评估 (Deep Research Evaluation)

HY-World 2.0：一种用于 3D 世界重建、生成与仿真的 Multi-Modal World Model

pi0.7: 発現的な能力を備えたステアラブルな汎用ロボット基盤モデル（Steerable Generalist Robotic Foundation Model）

GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Large Language ModelsのためのAgent Skills：アーキテクチャ、獲得、セキュリティ、および今後の展望

空間理論：Foundation Modelsは能動的な探索を通じて空間的信念を構築できるか？

メモリ転移学習：Coding Agentにおけるドメインを跨いだメモリの転移メカニズム

OccuBench: 言語 World Models を介した実世界の専門的タスクにおける AI Agents の評価

SpatialEvo: 決定論的な幾何学的環境を通じた自己進化型空間インテリジェンス

RationalRewards: Reasoning Rewards が Training と Test Time の両方において Visual Generation を Scale する

Seedance 2.0: 世界の複雑性に対応するビデオ生成技術の進化

GameWorld：面向多模态 Game Agents 标准化与可验证评估的研究