HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

VideoCanvas：文脈条件付きによる任意の時空間パッチからの統一的動画補完

VideoCanvas：文脈条件付きによる任意の時空間パッチからの統一的動画補完

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo：動画の統合的理解・生成・編集

UniVideo：動画の統合的理解・生成・編集

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba：状態空間モデルにおけるメモリパターンの再考

自然言語処理

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

PromptCoT 2.0：大規模言語モデル推論のためのプロンプト生成のスケーリング

Xueliang Zhao, Wei Wu, Jian Guan, et al.

抽出-0：ドキュメント情報抽出のための専門化された言語モデル

監視付き微調整

ドキュメント理解

オムニリターゲット：ヒューマノイド全身運動と操作およびシーンインタラクションのためのインタラクション保持型データ生成

ロボティクス

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench：野生環境におけるエンドツーエンド音声LLMのベンチマーク

ベンチマーク

音声および音声処理

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

大規模言語モデルの整合性向上のためのトークン認識型内部活性の編集

監視付き微調整

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

学びを追求する：リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング

視覚質問応答

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

エージェントの早期経験を用いた学習

監視付き微調整

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX：インタラクション認識型動画生成のためのマスクトラックアライメント

テキストから動画

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLinf-VLA：VLA＋RL学習を統合的かつ効率的に実現するフレームワーク

マルチモーダル表現

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

SHANKS：音声言語モデルにおける同時聴取と思考

音声および音声処理

人間-コンピュータインタラクション

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

Lumina-DiMOO：マルチモーダル生成および理解を目的としたオムニ拡散大規模言語モデル

拡散モデル

Yi Xin, Qi Qin, Siqi Luo, et al.

キャッシュ間通信：大規模言語モデル間の直接的な意味通信

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

Ming-UniVision：統一連続トークナイザーを用いた画像理解と生成の統合

マルチモーダル

Ziyuan Huang, DanDan Zheng, Cheng Zou, et al.

Phi-3 技術レポート：あなたのスマートフォン上でローカルに実行可能な高機能な言語モデル

モデル学習

Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, et al.

Qwen2.5 技術報告

監視付き微調整

Qwen, An Yang, Baosong Yang, et al.

ディープリサーチを組み込んだAlphaEvolveによる科学的アルゴリズムの発見

エージェント

アルゴリズム

Gang Liu, Yihan Zhu, Jie Chen, et al.

ConstraintLLM：産業レベルの制約プログラミングのためのニューロ・シンボリック枠組み

監視付き微調整

Weichun Shi, Minghao Liu, Wanting Zhang, et al.

コード支援付きチェーン・オブ・シンキングおよび指示のスケーリングによるモデル推論

コード生成

Honglin Lin, Qizhi Pei, Xin Gao, et al.

CoDA：拡散適応を用いたLMのコーディング

拡散モデル

テキスト生成

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2：効率的なブロックディフュージョン型LLM

拡散モデル

モデル学習

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

少ないことがむしろ多い：小さなネットワークを用いた再帰的推論

ニューラルネットワーク

Alexia Jolicoeur-Martineau

Fathom-DeepResearch：SLM向けの長期視野情報検索および統合の可能性を解き放つ

インテリジェントな質問応答

エージェント

Shreyas Singh, Kunal Singh, Pradeep Moturi

TaTToo：テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM

監視付き微調整

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

言語モデル向けハイブリッドアーキテクチャ：体系的分析と設計の知見

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

MITS：ポイントワイズ相互情報量を用いたツリー探索推論によるLLMの性能向上

Jiaxi Li, Yucheng Shi, Jin Lu, et al.

大規模言語モデルに対する認識不能な改ざん

テキスト生成

Kuofeng Gao, Yiming Li, Chao Du, et al.

VChain：動画生成における推論のための視覚的思考の連鎖

Ziqi Huang, Ning Yu, Gordon Chen, et al.

ビデオ-LMM ポストトレーニング：大規模マルチモーダルモデルを用いたビデオ推論の深層分析

監視付き微調整

Yunlong Tang, Jing Bi, Pinxin Liu, et al.

Paper2Video：科学論文からの自動動画生成

テキストから動画

Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

VideoCanvas：文脈条件付きによる任意の時空間パッチからの統一的動画補完

VideoCanvas：文脈条件付きによる任意の時空間パッチからの統一的動画補完

Minghong Cai, Qiulin Wang, Zongli Ye, et al.

UniVideo：動画の統合的理解・生成・編集

UniVideo：動画の統合的理解・生成・編集

Cong Wei, Quande Liu, Zixuan Ye, et al.

MemMamba：状態空間モデルにおけるメモリパターンの再考

自然言語処理

Youjin Wang, Yangjingyi Chen, Jiahao Yan, et al.

PromptCoT 2.0：大規模言語モデル推論のためのプロンプト生成のスケーリング

Xueliang Zhao, Wei Wu, Jian Guan, et al.

抽出-0：ドキュメント情報抽出のための専門化された言語モデル

監視付き微調整

ドキュメント理解

オムニリターゲット：ヒューマノイド全身運動と操作およびシーンインタラクションのためのインタラクション保持型データ生成

ロボティクス

Lujie Yang, Xiaoyu Huang, Zhen Wu, et al.

WildSpeech-Bench：野生環境におけるエンドツーエンド音声LLMのベンチマーク

ベンチマーク

音声および音声処理

Linhao Zhang, Jian Zhang, Bokai Lei, et al.

大規模言語モデルの整合性向上のためのトークン認識型内部活性の編集

監視付き微調整

Tianbo Wang, Yuqing Ma, Kewei Liao, et al.

学びを追求する：リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング

視覚質問応答

Bianca-Mihaela Ganescu, Suchir Salhan, Andrew Caines, et al.

エージェントの早期経験を用いた学習

監視付き微調整

Kai Zhang, Xiangchao Chen, Bo Liu, et al.

MATRIX：インタラクション認識型動画生成のためのマスクトラックアライメント

テキストから動画

Siyoon Jin, Seongchan Kim, Dahyun Chung, et al.

RLinf-VLA：VLA＋RL学習を統合的かつ効率的に実現するフレームワーク

マルチモーダル表現

Hongzhi Zang, Mingjie Wei, Si Xu, et al.

SHANKS：音声言語モデルにおける同時聴取と思考

音声および音声処理

人間-コンピュータインタラクション

Cheng-Han Chiang, Xiaofei Wang, Linjie Li, et al.

Lumina-DiMOO：マルチモーダル生成および理解を目的としたオムニ拡散大規模言語モデル

拡散モデル

Yi Xin, Qi Qin, Siqi Luo, et al.

キャッシュ間通信：大規模言語モデル間の直接的な意味通信

Tianyu Fu, Zihan Min, Hanling Zhang, et al.

Ming-UniVision：統一連続トークナイザーを用いた画像理解と生成の統合

マルチモーダル

Ziyuan Huang, DanDan Zheng, Cheng Zou, et al.

Phi-3 技術レポート：あなたのスマートフォン上でローカルに実行可能な高機能な言語モデル

モデル学習

Marah Abdin, Sam Ade Jacobs, Ammar Ahmad Awan, et al.

Qwen2.5 技術報告

監視付き微調整

Qwen, An Yang, Baosong Yang, et al.

ディープリサーチを組み込んだAlphaEvolveによる科学的アルゴリズムの発見

エージェント

アルゴリズム

Gang Liu, Yihan Zhu, Jie Chen, et al.

ConstraintLLM：産業レベルの制約プログラミングのためのニューロ・シンボリック枠組み

監視付き微調整

Weichun Shi, Minghao Liu, Wanting Zhang, et al.

コード支援付きチェーン・オブ・シンキングおよび指示のスケーリングによるモデル推論

コード生成

Honglin Lin, Qizhi Pei, Xin Gao, et al.

CoDA：拡散適応を用いたLMのコーディング

拡散モデル

テキスト生成

Haolin Chen, Shiyu Wang, Can Qin, et al.

Fast-dLLM v2：効率的なブロックディフュージョン型LLM

拡散モデル

モデル学習

Chengyue Wu, Hao Zhang, Shuchen Xue, et al.

少ないことがむしろ多い：小さなネットワークを用いた再帰的推論

ニューラルネットワーク

Alexia Jolicoeur-Martineau

Fathom-DeepResearch：SLM向けの長期視野情報検索および統合の可能性を解き放つ

インテリジェントな質問応答

エージェント

Shreyas Singh, Kunal Singh, Pradeep Moturi

TaTToo：テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM

監視付き微調整

Jiaru Zou, Soumya Roy, Vinay Kumar Verma, et al.

言語モデル向けハイブリッドアーキテクチャ：体系的分析と設計の知見

Sangmin Bae, Bilge Acun, Haroun Habeeb, et al.

MITS：ポイントワイズ相互情報量を用いたツリー探索推論によるLLMの性能向上

Jiaxi Li, Yucheng Shi, Jin Lu, et al.

大規模言語モデルに対する認識不能な改ざん

テキスト生成

Kuofeng Gao, Yiming Li, Chao Du, et al.

VChain：動画生成における推論のための視覚的思考の連鎖

Ziqi Huang, Ning Yu, Gordon Chen, et al.

ビデオ-LMM ポストトレーニング：大規模マルチモーダルモデルを用いたビデオ推論の深層分析

監視付き微調整

Yunlong Tang, Jing Bi, Pinxin Liu, et al.

Paper2Video：科学論文からの自動動画生成

テキストから動画

Zeyu Zhu, Kevin Qinghong Lin, Mike Zheng Shou

MemMamba：状態空間モデルにおけるメモリパターンの再考

PromptCoT 2.0：大規模言語モデル推論のためのプロンプト生成のスケーリング

抽出-0：ドキュメント情報抽出のための専門化された言語モデル

オムニリターゲット：ヒューマノイド全身運動と操作およびシーンインタラクションのためのインタラクション保持型データ生成

WildSpeech-Bench：野生環境におけるエンドツーエンド音声LLMのベンチマーク

大規模言語モデルの整合性向上のためのトークン認識型内部活性の編集

学びを追求する：リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング

エージェントの早期経験を用いた学習

MATRIX：インタラクション認識型動画生成のためのマスクトラックアライメント

RLinf-VLA：VLA＋RL学習を統合的かつ効率的に実現するフレームワーク

SHANKS：音声言語モデルにおける同時聴取と思考

Lumina-DiMOO：マルチモーダル生成および理解を目的としたオムニ拡散大規模言語モデル

キャッシュ間通信：大規模言語モデル間の直接的な意味通信

Ming-UniVision：統一連続トークナイザーを用いた画像理解と生成の統合

Phi-3 技術レポート：あなたのスマートフォン上でローカルに実行可能な高機能な言語モデル

Qwen2.5 技術報告

ディープリサーチを組み込んだAlphaEvolveによる科学的アルゴリズムの発見

ConstraintLLM：産業レベルの制約プログラミングのためのニューロ・シンボリック枠組み

コード支援付きチェーン・オブ・シンキングおよび指示のスケーリングによるモデル推論

CoDA：拡散適応を用いたLMのコーディング

Fast-dLLM v2：効率的なブロックディフュージョン型LLM

少ないことがむしろ多い：小さなネットワークを用いた再帰的推論

Fathom-DeepResearch：SLM向けの長期視野情報検索および統合の可能性を解き放つ

TaTToo：テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM

言語モデル向けハイブリッドアーキテクチャ：体系的分析と設計の知見

MITS：ポイントワイズ相互情報量を用いたツリー探索推論によるLLMの性能向上

大規模言語モデルに対する認識不能な改ざん

VChain：動画生成における推論のための視覚的思考の連鎖

ビデオ-LMM ポストトレーニング：大規模マルチモーダルモデルを用いたビデオ推論の深層分析

Paper2Video：科学論文からの自動動画生成

MemMamba：状態空間モデルにおけるメモリパターンの再考

PromptCoT 2.0：大規模言語モデル推論のためのプロンプト生成のスケーリング

抽出-0：ドキュメント情報抽出のための専門化された言語モデル

オムニリターゲット：ヒューマノイド全身運動と操作およびシーンインタラクションのためのインタラクション保持型データ生成

WildSpeech-Bench：野生環境におけるエンドツーエンド音声LLMのベンチマーク

大規模言語モデルの整合性向上のためのトークン認識型内部活性の編集

学びを追求する：リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング

エージェントの早期経験を用いた学習

MATRIX：インタラクション認識型動画生成のためのマスクトラックアライメント

RLinf-VLA：VLA＋RL学習を統合的かつ効率的に実現するフレームワーク

SHANKS：音声言語モデルにおける同時聴取と思考

Lumina-DiMOO：マルチモーダル生成および理解を目的としたオムニ拡散大規模言語モデル

キャッシュ間通信：大規模言語モデル間の直接的な意味通信

Ming-UniVision：統一連続トークナイザーを用いた画像理解と生成の統合

Phi-3 技術レポート：あなたのスマートフォン上でローカルに実行可能な高機能な言語モデル

Qwen2.5 技術報告

ディープリサーチを組み込んだAlphaEvolveによる科学的アルゴリズムの発見

ConstraintLLM：産業レベルの制約プログラミングのためのニューロ・シンボリック枠組み

コード支援付きチェーン・オブ・シンキングおよび指示のスケーリングによるモデル推論

CoDA：拡散適応を用いたLMのコーディング

Fast-dLLM v2：効率的なブロックディフュージョン型LLM

少ないことがむしろ多い：小さなネットワークを用いた再帰的推論

Fathom-DeepResearch：SLM向けの長期視野情報検索および統合の可能性を解き放つ

TaTToo：テーブル推論におけるテスト時スケーリングのためのツール接地型思考PRM

言語モデル向けハイブリッドアーキテクチャ：体系的分析と設計の知見

MITS：ポイントワイズ相互情報量を用いたツリー探索推論によるLLMの性能向上

大規模言語モデルに対する認識不能な改ざん

VChain：動画生成における推論のための視覚的思考の連鎖

ビデオ-LMM ポストトレーニング：大規模マルチモーダルモデルを用いたビデオ推論の深層分析

Paper2Video：科学論文からの自動動画生成