Command Palette
Search for a command to run...
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

大規模言語モデルのチェーン・オブ・シンキング推論は幻か?データ分布の視点から

VeriGUI:検証可能な長鎖GUIデータセット































大規模言語モデルのチェーン・オブ・シンキング推論は幻か?データ分布の視点から

VeriGUI:検証可能な長鎖GUIデータセット






























Qwen2.5-VL 技術報告
GANは死んだ。GAN万歳!モダンなGANベースライン
MegaPairs:ユニバーサルなマルチモーダル検索のための大規模データ合成
ライラ:包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク
オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する
NVILA:効率的フロンティア視覚言語モデル
VisionZip:視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない
百川オムニ技術報告書
MM1.5:多モーダルLLMのファインチューニングからの手法、分析および知見
Emu3:次トークン予測こそがすべてである
CogVLM2:画像および動画理解のための視覚言語モデル
Qwen2 技術報告
再構成と生成における画像の価値は32トークンに相当する
自己回帰モデルが拡散モデルを上回る:スケーラブルな画像生成のためのLlama
Meteor:大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法
FIFO-Diffusion:学習を伴わずにテキストから無限の動画を生成する
GPT-4Vまでの道のりはどのくらいか?オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める
想像、探索、批判を通じたLLMの自己改善へ
オムニフュージョン技術報告書
機械学習による予測誤差は、DFTの精度を上回る
SEAgent:経験からの自律学習を備えた自己進化型コンピュータ利用エージェント
AMix-1:テスト時スケーラブルなタンパク質フォンドエーションモデルへの道
CRINN:近似最近傍探索における対照的強化学習
表現のシフト:トークン圧縮とFlashAttentionの統一
CompassVerifier:大規模言語モデルの評価および結果報酬のための統合的で堅牢な検証フレームワーク
LongVie:マルチモーダル誘導型制御可能超長動画生成
Skywork UniPic:視覚理解と生成のための統合型自己回帰モデル
シード拡散:高速推論を実現する大規模な拡散言語モデル
エージェントライトニング:強化学習でANY AIエージェントを訓練する
大規模言語モデルによる進化的モンテカルロ木探索を用いた指導下的な自動アルゴリズム発見による重力波検出
Qwen2.5-VL 技術報告
GANは死んだ。GAN万歳!モダンなGANベースライン
MegaPairs:ユニバーサルなマルチモーダル検索のための大規模データ合成
ライラ:包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク
オープンソース多モーダルモデルの性能境界をモデル、データ、テスト時スケーリングによって拡張する
NVILA:効率的フロンティア視覚言語モデル
VisionZip:視覚言語モデルにおいて、長ければ長いほど良いが、必ずしも必要ではない
百川オムニ技術報告書
MM1.5:多モーダルLLMのファインチューニングからの手法、分析および知見
Emu3:次トークン予測こそがすべてである
CogVLM2:画像および動画理解のための視覚言語モデル
Qwen2 技術報告
再構成と生成における画像の価値は32トークンに相当する
自己回帰モデルが拡散モデルを上回る:スケーラブルな画像生成のためのLlama
Meteor:大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法
FIFO-Diffusion:学習を伴わずにテキストから無限の動画を生成する
GPT-4Vまでの道のりはどのくらいか?オープンソース・スイートによる商用マルチモーダルモデルとのギャップを埋める
想像、探索、批判を通じたLLMの自己改善へ
オムニフュージョン技術報告書
機械学習による予測誤差は、DFTの精度を上回る
SEAgent:経験からの自律学習を備えた自己進化型コンピュータ利用エージェント
AMix-1:テスト時スケーラブルなタンパク質フォンドエーションモデルへの道
CRINN:近似最近傍探索における対照的強化学習
表現のシフト:トークン圧縮とFlashAttentionの統一
CompassVerifier:大規模言語モデルの評価および結果報酬のための統合的で堅牢な検証フレームワーク
LongVie:マルチモーダル誘導型制御可能超長動画生成
Skywork UniPic:視覚理解と生成のための統合型自己回帰モデル
シード拡散:高速推論を実現する大規模な拡散言語モデル
エージェントライトニング:強化学習でANY AIエージェントを訓練する
大規模言語モデルによる進化的モンテカルロ木探索を用いた指導下的な自動アルゴリズム発見による重力波検出