HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

自己蒸留による継続的学習の実現

自己蒸留による継続的学習の実現

監視付き微調整

Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.

実行を基盤とする自動AI研究

実行を基盤とする自動AI研究

アルゴリズム

Chenglei Si, Zitong Yang, Yejin Choi, et al.

DynamicVLA：動的物体操作を実現する視覚言語行動モデル

ロボティクス

エムボディドインテリジェンス

Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.

MMFineReason：オープンデータ中心主義的手法によるマルチモーダル推論ギャップの解消

データセット

Honglin Lin, Zheng Liu, Yun Zhu, et al.

OCRVerse：エンドツーエンド視覚言語モデルにおける包括的なOCRへの道標

ドキュメント理解

Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.

埋め込みのスケーリングは、言語モデルにおけるエキスパートのスケーリングを上回る

検索拡張生成

Hong Liu, Jiaqi Zhang, Chao Wang, et al.

Idea2Story：研究コンセプトを完全な科学的物語に変換する自動化パイプライン

エージェント

Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.

すべてのものがその適切な場所にある：テキストから画像モデルの空間的知能をベンチマークする

テキストから画像生成

拡散モデル

Zengbin Wang, Xuecai Hu, Yong Wang, et al.

Qwen3-ASR 技術報告

音声および音声処理

Xian Shi, Xiong Wang, Zhifang Guo, et al.

インサイトエージェント：データインサイトを実現するLLMベースのマルチエージェントシステム

エージェント

インテリジェントな質問応答

Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.

ピクセルレベルのVLM Perception を実現するためのシンプルなポイント予測

マルチモーダル表現

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL：統一された視覚言語監督による視覚的潜在能力の解放

マルチモーダル表現

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL：科学発見を目的としたマルチモーダル大規模言語モデル

マルチモーダル表現

インテリジェントな質問応答

Zichen Wen, Boxue Yang, Shuang Chen, et al.

オープンソース・ワールドモデルの進展

オープンソース

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

難易度認識型GRPOと多面的質問再構成を活用した数学的推論の向上

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

ショートウィンドウアテンションにより長期記憶が可能となる

モデル学習

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft：テキストによる可視化可能な世界を創出するエージェントフレームワーク

エージェント

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

視覚生成がマルチモーダル・ワールド・モデルを通じて人間のような推論を解き放つ

マルチモーダル

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

マスク深度モデリングによる空間認識

Bin Tan, Changjiang Sun, Xiage Qin, et al.

実用的なVLA基盤モデル

ロボティクス

エムボディドインテリジェンス

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner：反復的視覚推論のための動的ツールオーケストレーション

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

AgentDoG：AIエージェントの安全性およびセキュリティを 위한診断ガードレールフレームワーク

エージェント

ベンチマーク

Dongrui Liu, Qihan Ren, Chen Qian, et al.

ARCEE TRINITY ラージテクニカルレポート

モデル学習

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

自分自身を学ぶように教える：学習可能性の限界における推論

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, et al.

ATLAS：多言語事前学習、微調整および多言語性の呪いの解読のための適応的転送スケーリング則

Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, et al.

iFSQ：1行のコードで画像生成向けFSQを改善する

拡散モデル

Bin Lin, Zongjian Li, Yuwei Niu, et al.

エラスティックアテンション：効率的なTransformerにおけるテスト時適応型スパース比

Zecheng Tang, Quantong Qiu, Yi Yang, et al.

科学的画像合成：ベンチマーク、手法論、および下流タスクにおける有用性

テキストから画像生成

拡散モデル

Honglin Lin, Chonghan Qin, Zheng Liu, et al.

スクリプトがすべてである：長期にわたる対話から映像化動画生成を実現するエージェントフレームワーク

テキストから動画

Chenyu Mu, Xin He, Qu Yang, et al.

daVinci-Dev：ソフトウェアエンジニアリングにおけるエージェントネイティブな中間訓練

エージェント

Ji Zeng, Dayuan Fu, Tiantian Mi, et al.

LLMはあなたの混乱を整理できるか？LLMを用いたアプリケーション対応データ準備のサーベイ

自然言語処理

Wei Zhou, Jun Zhou, Haoyu Wang, et al.

DeepSeek-OCR 2：視覚的因果フロー

ドキュメント理解

Haoran Wei, Yaofeng Sun, Yukun Li

自己蒸留による継続的学習の実現

自己蒸留による継続的学習の実現

監視付き微調整

Idan Shenfeld, Mehul Damani, Jonas Hübotter, et al.

実行を基盤とする自動AI研究

実行を基盤とする自動AI研究

アルゴリズム

Chenglei Si, Zitong Yang, Yejin Choi, et al.

DynamicVLA：動的物体操作を実現する視覚言語行動モデル

ロボティクス

エムボディドインテリジェンス

Haozhe Xie, Beichen Wen, Jiarui Zheng, et al.

MMFineReason：オープンデータ中心主義的手法によるマルチモーダル推論ギャップの解消

データセット

Honglin Lin, Zheng Liu, Yun Zhu, et al.

OCRVerse：エンドツーエンド視覚言語モデルにおける包括的なOCRへの道標

ドキュメント理解

Yufeng Zhong, Lei Chen, Xuanle Zhao, et al.

埋め込みのスケーリングは、言語モデルにおけるエキスパートのスケーリングを上回る

検索拡張生成

Hong Liu, Jiaqi Zhang, Chao Wang, et al.

Idea2Story：研究コンセプトを完全な科学的物語に変換する自動化パイプライン

エージェント

Tengyue Xu, Zhuoyang Qian, Gaoge Liu, et al.

すべてのものがその適切な場所にある：テキストから画像モデルの空間的知能をベンチマークする

テキストから画像生成

拡散モデル

Zengbin Wang, Xuecai Hu, Yong Wang, et al.

Qwen3-ASR 技術報告

音声および音声処理

Xian Shi, Xiong Wang, Zhifang Guo, et al.

インサイトエージェント：データインサイトを実現するLLMベースのマルチエージェントシステム

エージェント

インテリジェントな質問応答

Jincheng Bai, Zhenyu Zhang, Jennifer Zhang, et al.

ピクセルレベルのVLM Perception を実現するためのシンプルなポイント予測

マルチモーダル表現

Tianhui Song, Haoyu Lu, Hao Yang, et al.

Youtu-VL：統一された視覚言語監督による視覚的潜在能力の解放

マルチモーダル表現

Zhixiang Wei, Yi Li, Zhehan Kan, et al.

Innovator-VL：科学発見を目的としたマルチモーダル大規模言語モデル

マルチモーダル表現

インテリジェントな質問応答

Zichen Wen, Boxue Yang, Shuang Chen, et al.

オープンソース・ワールドモデルの進展

オープンソース

Robbyant Team, Zelin Gao, Qiuyu Wang, et al.

難易度認識型GRPOと多面的質問再構成を活用した数学的推論の向上

Yanqi Dai, Yuxiang Ji, Xiao Zhang, et al.

ショートウィンドウアテンションにより長期記憶が可能となる

モデル学習

Loïc Cabannes, Maximilian Beck, Gergely Szilvasy, et al.

World Craft：テキストによる可視化可能な世界を創出するエージェントフレームワーク

エージェント

Jianwen Sun, Yukang Feng, Kaining Ying, et al.

視覚生成がマルチモーダル・ワールド・モデルを通じて人間のような推論を解き放つ

マルチモーダル

Jialong Wu, Xiaoying Zhang, Hongyi Yuan, et al.

マスク深度モデリングによる空間認識

Bin Tan, Changjiang Sun, Xiage Qin, et al.

実用的なVLA基盤モデル

ロボティクス

エムボディドインテリジェンス

Wei Wu, Fan Lu, Yunnan Wang, et al.

AdaReasoner：反復的視覚推論のための動的ツールオーケストレーション

Mingyang Song, Haoyu Sun, Jiawei Gu, et al.

AgentDoG：AIエージェントの安全性およびセキュリティを 위한診断ガードレールフレームワーク

エージェント

ベンチマーク

Dongrui Liu, Qihan Ren, Chen Qian, et al.

ARCEE TRINITY ラージテクニカルレポート

モデル学習

Varun Singh, Lucas Krauss, Sami Jaghouar, et al.

自分自身を学ぶように教える：学習可能性の限界における推論

Shobhita Sundaram, John Quan, Ariel Kwiatkowski, et al.

ATLAS：多言語事前学習、微調整および多言語性の呪いの解読のための適応的転送スケーリング則

Shayne Longpre, Sneha Kudugunta, Niklas Muennighoff, et al.

iFSQ：1行のコードで画像生成向けFSQを改善する

拡散モデル

Bin Lin, Zongjian Li, Yuwei Niu, et al.

エラスティックアテンション：効率的なTransformerにおけるテスト時適応型スパース比

Zecheng Tang, Quantong Qiu, Yi Yang, et al.

科学的画像合成：ベンチマーク、手法論、および下流タスクにおける有用性

テキストから画像生成

拡散モデル

Honglin Lin, Chonghan Qin, Zheng Liu, et al.

スクリプトがすべてである：長期にわたる対話から映像化動画生成を実現するエージェントフレームワーク

テキストから動画

Chenyu Mu, Xin He, Qu Yang, et al.

daVinci-Dev：ソフトウェアエンジニアリングにおけるエージェントネイティブな中間訓練

エージェント

Ji Zeng, Dayuan Fu, Tiantian Mi, et al.

LLMはあなたの混乱を整理できるか？LLMを用いたアプリケーション対応データ準備のサーベイ

自然言語処理

Wei Zhou, Jun Zhou, Haoyu Wang, et al.

DeepSeek-OCR 2：視覚的因果フロー

ドキュメント理解

Haoran Wei, Yaofeng Sun, Yukun Li

DynamicVLA：動的物体操作を実現する視覚言語行動モデル

MMFineReason：オープンデータ中心主義的手法によるマルチモーダル推論ギャップの解消

OCRVerse：エンドツーエンド視覚言語モデルにおける包括的なOCRへの道標

埋め込みのスケーリングは、言語モデルにおけるエキスパートのスケーリングを上回る

Idea2Story：研究コンセプトを完全な科学的物語に変換する自動化パイプライン

すべてのものがその適切な場所にある：テキストから画像モデルの空間的知能をベンチマークする

Qwen3-ASR 技術報告

インサイトエージェント：データインサイトを実現するLLMベースのマルチエージェントシステム

ピクセルレベルのVLM Perception を実現するためのシンプルなポイント予測

Youtu-VL：統一された視覚言語監督による視覚的潜在能力の解放

Innovator-VL：科学発見を目的としたマルチモーダル大規模言語モデル

オープンソース・ワールドモデルの進展

難易度認識型GRPOと多面的質問再構成を活用した数学的推論の向上

ショートウィンドウアテンションにより長期記憶が可能となる

World Craft：テキストによる可視化可能な世界を創出するエージェントフレームワーク

視覚生成がマルチモーダル・ワールド・モデルを通じて人間のような推論を解き放つ

マスク深度モデリングによる空間認識

実用的なVLA基盤モデル

AdaReasoner：反復的視覚推論のための動的ツールオーケストレーション

AgentDoG：AIエージェントの安全性およびセキュリティを 위한診断ガードレールフレームワーク

ARCEE TRINITY ラージテクニカルレポート

自分自身を学ぶように教える：学習可能性の限界における推論

ATLAS：多言語事前学習、微調整および多言語性の呪いの解読のための適応的転送スケーリング則

iFSQ：1行のコードで画像生成向けFSQを改善する

エラスティックアテンション：効率的なTransformerにおけるテスト時適応型スパース比

科学的画像合成：ベンチマーク、手法論、および下流タスクにおける有用性

スクリプトがすべてである：長期にわたる対話から映像化動画生成を実現するエージェントフレームワーク

daVinci-Dev：ソフトウェアエンジニアリングにおけるエージェントネイティブな中間訓練

LLMはあなたの混乱を整理できるか？LLMを用いたアプリケーション対応データ準備のサーベイ

DeepSeek-OCR 2：視覚的因果フロー

DynamicVLA：動的物体操作を実現する視覚言語行動モデル

MMFineReason：オープンデータ中心主義的手法によるマルチモーダル推論ギャップの解消

OCRVerse：エンドツーエンド視覚言語モデルにおける包括的なOCRへの道標

埋め込みのスケーリングは、言語モデルにおけるエキスパートのスケーリングを上回る

Idea2Story：研究コンセプトを完全な科学的物語に変換する自動化パイプライン

すべてのものがその適切な場所にある：テキストから画像モデルの空間的知能をベンチマークする

Qwen3-ASR 技術報告

インサイトエージェント：データインサイトを実現するLLMベースのマルチエージェントシステム

ピクセルレベルのVLM Perception を実現するためのシンプルなポイント予測

Youtu-VL：統一された視覚言語監督による視覚的潜在能力の解放

Innovator-VL：科学発見を目的としたマルチモーダル大規模言語モデル

オープンソース・ワールドモデルの進展

難易度認識型GRPOと多面的質問再構成を活用した数学的推論の向上

ショートウィンドウアテンションにより長期記憶が可能となる

World Craft：テキストによる可視化可能な世界を創出するエージェントフレームワーク

視覚生成がマルチモーダル・ワールド・モデルを通じて人間のような推論を解き放つ

マスク深度モデリングによる空間認識

実用的なVLA基盤モデル

AdaReasoner：反復的視覚推論のための動的ツールオーケストレーション

AgentDoG：AIエージェントの安全性およびセキュリティを 위한診断ガードレールフレームワーク

ARCEE TRINITY ラージテクニカルレポート

自分自身を学ぶように教える：学習可能性の限界における推論

ATLAS：多言語事前学習、微調整および多言語性の呪いの解読のための適応的転送スケーリング則

iFSQ：1行のコードで画像生成向けFSQを改善する

エラスティックアテンション：効率的なTransformerにおけるテスト時適応型スパース比

科学的画像合成：ベンチマーク、手法論、および下流タスクにおける有用性

スクリプトがすべてである：長期にわたる対話から映像化動画生成を実現するエージェントフレームワーク

daVinci-Dev：ソフトウェアエンジニアリングにおけるエージェントネイティブな中間訓練

LLMはあなたの混乱を整理できるか？LLMを用いたアプリケーション対応データ準備のサーベイ

DeepSeek-OCR 2：視覚的因果フロー