HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

LiveTalk：改善されたオンポリシー蒸留を用いたリアルタイムマルチモーダル相互作用型ビデオディフュージョン

LiveTalk：改善されたオンポリシー蒸留を用いたリアルタイムマルチモーダル相互作用型ビデオディフュージョン

拡散モデル

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

Mixture-of-Expertsにおける補助損失を用いたエキスパートとルーターの結合

Mixture-of-Expertsにおける補助損失を用いたエキスパートとルーターの結合

アルゴリズム

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly：時空間的コンテキスト統合を用いた長期予測UAV視覚言語ナビゲーション

ロボティクス

ビデオ理解

Wen Jiang, Li Wang, Kangyao Huang, et al.

注目はあなたが必要なものではない

SlideTailor：科学論文向けのパーソナライズ型プレゼンテーションスライド生成

テキスト生成

人間-コンピュータインタラクション

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3：汎用視覚検索によるマルチモーダル基盤モデルの強化

エージェント

マルチモーダル表現

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere：4Dシーン幾何と拡散モデルを橋渡しするリアルな動画オブジェクト挿入

拡散モデル

ビデオ処理

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

マインドスケープ認識型リtrieval-Augmented Generationによる長文脈理解の向上

検索拡張生成

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

大規模言語モデルにおける短文の事実性の測定

インテリジェントな質問応答

ベンチマーク

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA：深い研究エージェントにおける包括性のギャップを埋める

エージェント

ベンチマーク

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1：長期間エージェントの効率化のための記憶と推論の連携学習

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader：リアルタイム金融市場における自律型エージェントのベンチマーク評価

エージェント

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

潜在的陰在視覚的推論

マルチモーダル表現

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLMのペルソナが手法のベンチマーキングにおけるフィールド実験の代替としての役割を果たす可能性

ベンチマーク

Enoch Hyunwook Kang

DataFlow：データ中心型AI時代における統一されたデータ準備およびワークフロー自動化を実現するLLM駆動型フレームワーク

検索拡張生成

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream：冗長性除去ストリーミングを用いた効率的な高解像度ビデオ生成

拡散モデル

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite：トークナイザーの選択が言語モデルの行動に与える影響を測定する

ベンチマーク

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano：エージェンティック推論向けに最適化されたオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル

監視付き微調整

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

記憶を超えて：視覚言語モデルにおける人気バイアスを露呈するマルチモーダル順序回帰ベンチマーク

マルチモーダル

ベンチマーク

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage：任意フレームガイド付きワンショット動画生成

画像から動画生成

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass：テキストから音声・映像生成への統合的評価へ向けて

テキストから動画

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM：知能機械のシミュレーションを目的とした汎用プラットフォーム

エムボディドインテリジェンス

エージェント

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered：レイヤー分解による本質的な編集可能性の実現へ

拡散モデル

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe：実行可能安全論理を用いた身体化エージェントの保護

ロボティクス

Le Wang, Zonghao Ying, Xiao Yang, et al.

NHSにおけるプライマリケアにおけるLLM薬物療法安全レビューの実世界評価

自然言語処理

データセット

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

複数LLMを用いた主題分析：二重信頼性指標を用いた定性的研究の検証—CohenのKappaと意味的類似度の統合

自然言語処理

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

閉ループ・ワールドモデリングを用いたビデオアバターにおけるアクティブインテリジェンス

エムボディドインテリジェンス

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens：忠実性ホワリュネーションの検出と解釈

検索拡張生成

監視付き微調整

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio：音声におけるアノテーションのための「Anything」モデル

マルチモーダル

Bowen Shi, Andros Tjandra, John Hoffman, et al.

ステップ・ディープリサーチ技術報告書

エージェント

監視付き微調整

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree：MLLMにおける空間能力の分岐構造

マルチモーダル

Yuxi Xiao, Longfei Li, Shen Yan, et al.

セマンティックジェン：セマンティック空間における動画生成

画像から動画生成

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

LiveTalk：改善されたオンポリシー蒸留を用いたリアルタイムマルチモーダル相互作用型ビデオディフュージョン

LiveTalk：改善されたオンポリシー蒸留を用いたリアルタイムマルチモーダル相互作用型ビデオディフュージョン

拡散モデル

Ethan Chern, Zhulin Hu, Bohao Tang, et al.

Mixture-of-Expertsにおける補助損失を用いたエキスパートとルーターの結合

Mixture-of-Expertsにおける補助損失を用いたエキスパートとルーターの結合

アルゴリズム

Ang Lv, Jin Ma, Yiyuan Ma, et al.

LongFly：時空間的コンテキスト統合を用いた長期予測UAV視覚言語ナビゲーション

ロボティクス

ビデオ理解

Wen Jiang, Li Wang, Kangyao Huang, et al.

注目はあなたが必要なものではない

SlideTailor：科学論文向けのパーソナライズ型プレゼンテーションスライド生成

テキスト生成

人間-コンピュータインタラクション

Wenzheng Zeng, Mingyu Ouyang, Langyuan Cui, et al.

InSight-o3：汎用視覚検索によるマルチモーダル基盤モデルの強化

エージェント

マルチモーダル表現

Kaican Li, Lewei Yao, Jiannan Wu, et al.

InsertAnywhere：4Dシーン幾何と拡散モデルを橋渡しするリアルな動画オブジェクト挿入

拡散モデル

ビデオ処理

Hoiyeong Jin, Hyojin Jang, Jeongho Kim, et al.

マインドスケープ認識型リtrieval-Augmented Generationによる長文脈理解の向上

検索拡張生成

Yuqing Li, Jiangnan Li, Zheng Lin, et al.

大規模言語モデルにおける短文の事実性の測定

インテリジェントな質問応答

ベンチマーク

Jason Wei, Nguyen Karina, Hyung Won Chung, et al.

DeepSearchQA：深い研究エージェントにおける包括性のギャップを埋める

エージェント

ベンチマーク

Nikita Gupta, Riju Chatterjee, Lukas Haas, et al.

MEM1：長期間エージェントの効率化のための記憶と推論の連携学習

Zijian Zhou, Ao Qu, Zhaoxuan Wu, et al.

AI-Trader：リアルタイム金融市場における自律型エージェントのベンチマーク評価

エージェント

Tianyu Fan, Yuhao Yang, Yangqin Jiang, et al.

潜在的陰在視覚的推論

マルチモーダル表現

Kelvin Li, Chuyi Shang, Leonid Karlinsky, et al.

LLMのペルソナが手法のベンチマーキングにおけるフィールド実験の代替としての役割を果たす可能性

ベンチマーク

Enoch Hyunwook Kang

DataFlow：データ中心型AI時代における統一されたデータ準備およびワークフロー自動化を実現するLLM駆動型フレームワーク

検索拡張生成

Hao Liang, Xiaochen Ma, Zhou Liu, et al.

HiStream：冗長性除去ストリーミングを用いた効率的な高解像度ビデオ生成

拡散モデル

Haonan Qiu, Shikun Liu, Zijian Zhou, et al.

TokSuite：トークナイザーの選択が言語モデルの行動に与える影響を測定する

ベンチマーク

Gül Sena Altıntaş, Malikeh Ehghaghi, Brian Lester, et al.

Nemotron 3 Nano：エージェンティック推論向けに最適化されたオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル

監視付き微調整

NVIDIA, Aaron Blakeman, Aaron Grattafiori, et al.

記憶を超えて：視覚言語モデルにおける人気バイアスを露呈するマルチモーダル順序回帰ベンチマーク

マルチモーダル

ベンチマーク

Li-Zhong Szu-Tu, Ting-Lin Wu, Chia-Jui Chang, et al.

DreaMontage：任意フレームガイド付きワンショット動画生成

画像から動画生成

Jiawei Liu, Junqiao Li, Jiangfan Deng, et al.

T2AV-Compass：テキストから音声・映像生成への統合的評価へ向けて

テキストから動画

Zhe Cao, Tao Wang, Jiaming Wang, et al.

TongSIM：知能機械のシミュレーションを目的とした汎用プラットフォーム

エムボディドインテリジェンス

エージェント

Zhe Sun, Kunlun Wu, Chuanjian Fu, et al.

Qwen-Image-Layered：レイヤー分解による本質的な編集可能性の実現へ

拡散モデル

Shengming Yin, Zekai Zhang, Zecheng Tang, et al.

RoboSafe：実行可能安全論理を用いた身体化エージェントの保護

ロボティクス

Le Wang, Zonghao Ying, Xiao Yang, et al.

NHSにおけるプライマリケアにおけるLLM薬物療法安全レビューの実世界評価

自然言語処理

データセット

Oliver Normand, Esther Borsi, Mitch Fruin, et al.

複数LLMを用いた主題分析：二重信頼性指標を用いた定性的研究の検証—CohenのKappaと意味的類似度の統合

自然言語処理

Nilesh Jain, Seyi Adeyinka, Leor Roseman, et al.

閉ループ・ワールドモデリングを用いたビデオアバターにおけるアクティブインテリジェンス

エムボディドインテリジェンス

Xuanhua He, Tianyu Yang, Ke Cao, et al.

FaithLens：忠実性ホワリュネーションの検出と解釈

検索拡張生成

監視付き微調整

Shuzheng Si, Qingyi Wang, Haozhe Zhao, et al.

SAM Audio：音声におけるアノテーションのための「Anything」モデル

マルチモーダル

Bowen Shi, Andros Tjandra, John Hoffman, et al.

ステップ・ディープリサーチ技術報告書

エージェント

監視付き微調整

Chen Hu, Haikuo Du, Heng Wang, et al.

SpatialTree：MLLMにおける空間能力の分岐構造

マルチモーダル

Yuxi Xiao, Longfei Li, Shen Yan, et al.

セマンティックジェン：セマンティック空間における動画生成

画像から動画生成

Jianhong Bai, Xiaoshi Wu, Xintao Wang, et al.

LongFly：時空間的コンテキスト統合を用いた長期予測UAV視覚言語ナビゲーション

注目はあなたが必要なものではない

SlideTailor：科学論文向けのパーソナライズ型プレゼンテーションスライド生成

InSight-o3：汎用視覚検索によるマルチモーダル基盤モデルの強化

InsertAnywhere：4Dシーン幾何と拡散モデルを橋渡しするリアルな動画オブジェクト挿入

マインドスケープ認識型リtrieval-Augmented Generationによる長文脈理解の向上

大規模言語モデルにおける短文の事実性の測定

DeepSearchQA：深い研究エージェントにおける包括性のギャップを埋める

MEM1：長期間エージェントの効率化のための記憶と推論の連携学習

AI-Trader：リアルタイム金融市場における自律型エージェントのベンチマーク評価

潜在的陰在視覚的推論

LLMのペルソナが手法のベンチマーキングにおけるフィールド実験の代替としての役割を果たす可能性

DataFlow：データ中心型AI時代における統一されたデータ準備およびワークフロー自動化を実現するLLM駆動型フレームワーク

HiStream：冗長性除去ストリーミングを用いた効率的な高解像度ビデオ生成

TokSuite：トークナイザーの選択が言語モデルの行動に与える影響を測定する

Nemotron 3 Nano：エージェンティック推論向けに最適化されたオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル

記憶を超えて：視覚言語モデルにおける人気バイアスを露呈するマルチモーダル順序回帰ベンチマーク

DreaMontage：任意フレームガイド付きワンショット動画生成

T2AV-Compass：テキストから音声・映像生成への統合的評価へ向けて

TongSIM：知能機械のシミュレーションを目的とした汎用プラットフォーム

Qwen-Image-Layered：レイヤー分解による本質的な編集可能性の実現へ

RoboSafe：実行可能安全論理を用いた身体化エージェントの保護

NHSにおけるプライマリケアにおけるLLM薬物療法安全レビューの実世界評価

複数LLMを用いた主題分析：二重信頼性指標を用いた定性的研究の検証—CohenのKappaと意味的類似度の統合

閉ループ・ワールドモデリングを用いたビデオアバターにおけるアクティブインテリジェンス

FaithLens：忠実性ホワリュネーションの検出と解釈

SAM Audio：音声におけるアノテーションのための「Anything」モデル

ステップ・ディープリサーチ技術報告書

SpatialTree：MLLMにおける空間能力の分岐構造

セマンティックジェン：セマンティック空間における動画生成

LongFly：時空間的コンテキスト統合を用いた長期予測UAV視覚言語ナビゲーション

注目はあなたが必要なものではない

SlideTailor：科学論文向けのパーソナライズ型プレゼンテーションスライド生成

InSight-o3：汎用視覚検索によるマルチモーダル基盤モデルの強化

InsertAnywhere：4Dシーン幾何と拡散モデルを橋渡しするリアルな動画オブジェクト挿入

マインドスケープ認識型リtrieval-Augmented Generationによる長文脈理解の向上

大規模言語モデルにおける短文の事実性の測定

DeepSearchQA：深い研究エージェントにおける包括性のギャップを埋める

MEM1：長期間エージェントの効率化のための記憶と推論の連携学習

AI-Trader：リアルタイム金融市場における自律型エージェントのベンチマーク評価

潜在的陰在視覚的推論

LLMのペルソナが手法のベンチマーキングにおけるフィールド実験の代替としての役割を果たす可能性

DataFlow：データ中心型AI時代における統一されたデータ準備およびワークフロー自動化を実現するLLM駆動型フレームワーク

HiStream：冗長性除去ストリーミングを用いた効率的な高解像度ビデオ生成

TokSuite：トークナイザーの選択が言語モデルの行動に与える影響を測定する

Nemotron 3 Nano：エージェンティック推論向けに最適化されたオープンで効率的なMixture-of-ExpertsハイブリッドMamba-Transformerモデル

記憶を超えて：視覚言語モデルにおける人気バイアスを露呈するマルチモーダル順序回帰ベンチマーク

DreaMontage：任意フレームガイド付きワンショット動画生成

T2AV-Compass：テキストから音声・映像生成への統合的評価へ向けて

TongSIM：知能機械のシミュレーションを目的とした汎用プラットフォーム

Qwen-Image-Layered：レイヤー分解による本質的な編集可能性の実現へ

RoboSafe：実行可能安全論理を用いた身体化エージェントの保護

NHSにおけるプライマリケアにおけるLLM薬物療法安全レビューの実世界評価

複数LLMを用いた主題分析：二重信頼性指標を用いた定性的研究の検証—CohenのKappaと意味的類似度の統合

閉ループ・ワールドモデリングを用いたビデオアバターにおけるアクティブインテリジェンス

FaithLens：忠実性ホワリュネーションの検出と解釈

SAM Audio：音声におけるアノテーションのための「Anything」モデル

ステップ・ディープリサーチ技術報告書

SpatialTree：MLLMにおける空間能力の分岐構造

セマンティックジェン：セマンティック空間における動画生成