HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

HyperAI

メイン

GPU

コンソール
Studio
ドキュメント
料金

パルス

ニュース

リソース

論文
ノートブック
データセット
Wiki

ベンチマーク

SOTA
LLMモデル
GPUランキング

コミュニティ

イベント

ユーティリティ

概要利用規約プライバシーポリシー
日本語

Command Palette

Search for a command to run...

HyperAI
Papers

Papers

最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

人工知能の未来を築く

概要

当社についてサポートデータセットのヘルプ

製品

ニュース論文ノートブックデータセット Wiki

リンク

© HyperAI

GitHub Discord X (formerly Twitter)

大規模言語モデルのチェーン・オブ・シンキング推論は幻か？データ分布の視点から

大規模言語モデルのチェーン・オブ・シンキング推論は幻か？データ分布の視点から

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI：検証可能な長鎖GUIデータセット

VeriGUI：検証可能な長鎖GUIデータセット

エージェント

ベンチマーク

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL 技術報告

ドキュメント理解

ビデオ理解

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

GANは死んだ。GAN万歳！モダンなGANベースライン

ディープラーニング

コンピュータビジョン

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs：ユニバーサルなマルチモーダル検索のための大規模データ合成

マルチモーダル

データセット

Junjie Zhou, Zheng Liu, Ze Liu, et al.

ライラ：包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する

マルチモーダル

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA：効率的フロンティア視覚言語モデル

マルチモーダル

ビデオ理解

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip：視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない

マルチモーダル

マルチモーダル表現

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

百川オムニ技術報告書

マルチモーダル

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5：多モーダルLLMのファインチューニングからの手法、分析および知見

マルチモーダル

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3：次トークン予測こそがすべてである

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2：画像および動画理解のための視覚言語モデル

ビデオ理解

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 技術報告

コード生成

An Yang, Baosong Yang, Binyuan Hui, et al.

再構成と生成における画像の価値は32トークンに相当する

Qihang Yu, Mark Weber, Xueqing Deng, et al.

自己回帰モデルが拡散モデルを上回る：スケーラブルな画像生成のためのLlama

Peize Sun, Yi Jiang, Shoufa Chen, et al.

Meteor：大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法

視覚質問応答

マルチモーダル

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.

FIFO-Diffusion：学習を伴わずにテキストから無限の動画を生成する

拡散モデル

Jihwan Kim, Junoh Kang, Jinyoung Choi, et al.

GPT-4Vまでの道のりはどのくらいか？オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める

視覚質問応答

ドキュメント理解

Zhe Chen, Weiyun Wang, Hao Tian, et al.

想像、探索、批判を通じたLLMの自己改善へ

Ye Tian, Baolin Peng, Linfeng Song, et al.

オムニフュージョン技術報告書

視覚質問応答

Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, et al.

機械学習による予測誤差は、DFTの精度を上回る

ディープラーニング

分子ネットワーク

Felix A. Faber, Luke Hutchison, Bing Huang, et al.

SEAgent：経験からの自律学習を備えた自己進化型コンピュータ利用エージェント

エージェント

Zeyi Sun, Ziyu Liu, Yuhang Zang, et al.

AMix-1：テスト時スケーラブルなタンパク質フォンドエーションモデルへの道

サイエンスのためのAI

ディープラーニング

Changze Lv, Jiang Zhou, Siyu Long, et al.

CRINN：近似最近傍探索における対照的強化学習

検索拡張生成

Xiaoya Li, Xiaofei Sun, Albert Wang, et al.

表現のシフト：トークン圧縮とFlashAttentionの統一

ビデオ処理

Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, et al.

CompassVerifier：大規模言語モデルの評価および結果報酬のための統合的で堅牢な検証フレームワーク

Shudong Liu, Hongwei Liu, Junnan Liu, et al.

LongVie：マルチモーダル誘導型制御可能超長動画生成

マルチモーダル

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

Skywork UniPic：視覚理解と生成のための統合型自己回帰モデル

テキストから画像生成

Peiyu Wang, Yi Peng, Yimeng Gan, et al.

シード拡散：高速推論を実現する大規模な拡散言語モデル

拡散モデル

\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, et al.

エージェントライトニング：強化学習でANY AIエージェントを訓練する

Xufang Luo, Yuge Zhang, Zhiyuan He, et al.

大規模言語モデルによる進化的モンテカルロ木探索を用いた指導下的な自動アルゴリズム発見による重力波検出

アルゴリズム

He Wang, Liang Zeng

大規模言語モデルのチェーン・オブ・シンキング推論は幻か？データ分布の視点から

大規模言語モデルのチェーン・オブ・シンキング推論は幻か？データ分布の視点から

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, et al.

VeriGUI：検証可能な長鎖GUIデータセット

VeriGUI：検証可能な長鎖GUIデータセット

エージェント

ベンチマーク

Shunyu Liu, Minghao Liu, Huichi Zhou, et al.

Qwen2.5-VL 技術報告

ドキュメント理解

ビデオ理解

Shuai Bai, Keqin Chen, Xuejing Liu, et al.

GANは死んだ。GAN万歳！モダンなGANベースライン

ディープラーニング

コンピュータビジョン

Yiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, et al.

MegaPairs：ユニバーサルなマルチモーダル検索のための大規模データ合成

マルチモーダル

データセット

Junjie Zhou, Zheng Liu, Ze Liu, et al.

ライラ：包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, et al.

オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する

マルチモーダル

Zhe Chen, Weiyun Wang, Yue Cao, et al.

NVILA：効率的フロンティア視覚言語モデル

マルチモーダル

ビデオ理解

Zhijian Liu, Ligeng Zhu, Baifeng Shi, et al.

VisionZip：視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない

マルチモーダル

マルチモーダル表現

Senqiao Yang, Yukang Chen, Zhuotao Tian, et al.

百川オムニ技術報告書

マルチモーダル

Yadong Li, Haoze Sun, Mingan Lin, et al.

MM1.5：多モーダルLLMのファインチューニングからの手法、分析および知見

マルチモーダル

Haotian Zhang, Mingfei Gao, Zhe Gan, et al.

Emu3：次トークン予測こそがすべてである

Xinlong Wang, Xiaosong Zhang, Zhengxiong Luo, et al.

CogVLM2：画像および動画理解のための視覚言語モデル

ビデオ理解

Wenyi Hong, Weihan Wang, Ming Ding, et al.

Qwen2 技術報告

コード生成

An Yang, Baosong Yang, Binyuan Hui, et al.

再構成と生成における画像の価値は32トークンに相当する

Qihang Yu, Mark Weber, Xueqing Deng, et al.

自己回帰モデルが拡散モデルを上回る：スケーラブルな画像生成のためのLlama

Peize Sun, Yi Jiang, Shoufa Chen, et al.

Meteor：大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法

視覚質問応答

マルチモーダル

Byung-Kwan Lee, Chae Won Kim, Beomchan Park, et al.

FIFO-Diffusion：学習を伴わずにテキストから無限の動画を生成する

拡散モデル

Jihwan Kim, Junoh Kang, Jinyoung Choi, et al.

GPT-4Vまでの道のりはどのくらいか？オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める

視覚質問応答

ドキュメント理解

Zhe Chen, Weiyun Wang, Hao Tian, et al.

想像、探索、批判を通じたLLMの自己改善へ

Ye Tian, Baolin Peng, Linfeng Song, et al.

オムニフュージョン技術報告書

視覚質問応答

Elizaveta Goncharova, Anton Razzhigaev, Matvey Mikhalchuk, et al.

機械学習による予測誤差は、DFTの精度を上回る

ディープラーニング

分子ネットワーク

Felix A. Faber, Luke Hutchison, Bing Huang, et al.

SEAgent：経験からの自律学習を備えた自己進化型コンピュータ利用エージェント

エージェント

Zeyi Sun, Ziyu Liu, Yuhang Zang, et al.

AMix-1：テスト時スケーラブルなタンパク質フォンドエーションモデルへの道

サイエンスのためのAI

ディープラーニング

Changze Lv, Jiang Zhou, Siyu Long, et al.

CRINN：近似最近傍探索における対照的強化学習

検索拡張生成

Xiaoya Li, Xiaofei Sun, Albert Wang, et al.

表現のシフト：トークン圧縮とFlashAttentionの統一

ビデオ処理

Joonmyung Choi, Sanghyeok Lee, Byungoh Ko, et al.

CompassVerifier：大規模言語モデルの評価および結果報酬のための統合的で堅牢な検証フレームワーク

Shudong Liu, Hongwei Liu, Junnan Liu, et al.

LongVie：マルチモーダル誘導型制御可能超長動画生成

マルチモーダル

Jianxiong Gao, Zhaoxi Chen, Xian Liu, et al.

Skywork UniPic：視覚理解と生成のための統合型自己回帰モデル

テキストから画像生成

Peiyu Wang, Yi Peng, Yimeng Gan, et al.

シード拡散：高速推論を実現する大規模な拡散言語モデル

拡散モデル

\Yuxuan Song\, \ Zheng Zhang\, \ Cheng Luo\, et al.

エージェントライトニング：強化学習でANY AIエージェントを訓練する

Xufang Luo, Yuge Zhang, Zhiyuan He, et al.

大規模言語モデルによる進化的モンテカルロ木探索を用いた指導下的な自動アルゴリズム発見による重力波検出

アルゴリズム

He Wang, Liang Zeng

Qwen2.5-VL 技術報告

GANは死んだ。GAN万歳！モダンなGANベースライン

MegaPairs：ユニバーサルなマルチモーダル検索のための大規模データ合成

ライラ：包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク

オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する

NVILA：効率的フロンティア視覚言語モデル

VisionZip：視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない

百川オムニ技術報告書

MM1.5：多モーダルLLMのファインチューニングからの手法、分析および知見

Emu3：次トークン予測こそがすべてである

CogVLM2：画像および動画理解のための視覚言語モデル

Qwen2 技術報告

再構成と生成における画像の価値は32トークンに相当する

自己回帰モデルが拡散モデルを上回る：スケーラブルな画像生成のためのLlama

Meteor：大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法

FIFO-Diffusion：学習を伴わずにテキストから無限の動画を生成する

GPT-4Vまでの道のりはどのくらいか？オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める

想像、探索、批判を通じたLLMの自己改善へ

オムニフュージョン技術報告書

機械学習による予測誤差は、DFTの精度を上回る

SEAgent：経験からの自律学習を備えた自己進化型コンピュータ利用エージェント

AMix-1：テスト時スケーラブルなタンパク質フォンドエーションモデルへの道

CRINN：近似最近傍探索における対照的強化学習

表現のシフト：トークン圧縮とFlashAttentionの統一

CompassVerifier：大規模言語モデルの評価および結果報酬のための統合的で堅牢な検証フレームワーク

LongVie：マルチモーダル誘導型制御可能超長動画生成

Skywork UniPic：視覚理解と生成のための統合型自己回帰モデル

シード拡散：高速推論を実現する大規模な拡散言語モデル

エージェントライトニング：強化学習でANY AIエージェントを訓練する

大規模言語モデルによる進化的モンテカルロ木探索を用いた指導下的な自動アルゴリズム発見による重力波検出

Qwen2.5-VL 技術報告

GANは死んだ。GAN万歳！モダンなGANベースライン

MegaPairs：ユニバーサルなマルチモーダル検索のための大規模データ合成

ライラ：包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク

オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する

NVILA：効率的フロンティア視覚言語モデル

VisionZip：視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない

百川オムニ技術報告書

MM1.5：多モーダルLLMのファインチューニングからの手法、分析および知見

Emu3：次トークン予測こそがすべてである

CogVLM2：画像および動画理解のための視覚言語モデル

Qwen2 技術報告

再構成と生成における画像の価値は32トークンに相当する

自己回帰モデルが拡散モデルを上回る：スケーラブルな画像生成のためのLlama

Meteor：大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法

FIFO-Diffusion：学習を伴わずにテキストから無限の動画を生成する

GPT-4Vまでの道のりはどのくらいか？オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める

想像、探索、批判を通じたLLMの自己改善へ

オムニフュージョン技術報告書

機械学習による予測誤差は、DFTの精度を上回る

SEAgent：経験からの自律学習を備えた自己進化型コンピュータ利用エージェント

AMix-1：テスト時スケーラブルなタンパク質フォンドエーションモデルへの道

CRINN：近似最近傍探索における対照的強化学習

表現のシフト：トークン圧縮とFlashAttentionの統一

CompassVerifier：大規模言語モデルの評価および結果報酬のための統合的で堅牢な検証フレームワーク

LongVie：マルチモーダル誘導型制御可能超長動画生成

Skywork UniPic：視覚理解と生成のための統合型自己回帰モデル

シード拡散：高速推論を実現する大規模な拡散言語モデル

エージェントライトニング：強化学習でANY AIエージェントを訓練する

大規模言語モデルによる進化的モンテカルロ木探索を用いた指導下的な自動アルゴリズム発見による重力波検出