Command Palette
Search for a command to run...
Papers
最新のAIトレンドを把握するための、日々更新される最先端AI研究論文

PaperRegister:階層的レジスタインデックスを活用した柔軟な粒度の論文検索の向上

DINOv3































PaperRegister:階層的レジスタインデックスを活用した柔軟な粒度の論文検索の向上

DINOv3






























SSRL:自己探索強化学習
タイム:画像を超えて考える
文化的知識を用いた多言語多モーダル大規模言語モデルの接地
HiFiTTS-2:大規模高帯域音声データセット
CryptoScope:大規模言語モデルを活用した暗号論的論理バグの自動検出
医療グラフRAG:グラフ検索拡張生成による安全な医療大規模言語モデルへの道
Puppeteer:3Dモデルのラギングおよびアニメーション化
STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成
序章:長文脈にわたる全体的理解と推論を要するベンチマーク
ToonComposer:生成後キーふりによるアニメ制作の効率化
NextStep-1:スケールにおける連続トークンを用いた自己回帰型画像生成へ
We-Math 2.0:視覚的数学的推論を促進するための汎用数学書システム
COREVQA:クラウド観察と推論包含を備えた視覚質問応答ベンチマーク
RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み
GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転
見る、聞く、覚える、推論する:長期記憶を備えたマルチモーダルエージェント
拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる
AWorld:安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決
Story2Board:表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ
スタンドイン:動画生成のための軽量かつ即時接続型アイデンティティ制御
Mol-R1:分子発見における明示的長期CoT推論への挑戦
Llama-Nemotron:効率的な推論モデル
ドキュメントヘイストック:長文脈マルチモーダル画像/ドキュメント理解を対象としたビジョンLLMベンチマーク
Echo-4o:GPT-4oによる合成画像の力を活用した画像生成の向上
ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色
VisCodex:視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成
HierSearch:ローカル検索とWeb検索を統合した階層型エンタープライズディープサーチフレームワーク
時刻は特徴である:拡散言語モデルにおける時系列ダイナミクスの活用
CharacterShot:制御可能かつ一貫性のある4Dキャラクターアニメーション
テンターンを越えて:大規模非同期強化学習を用いた長期的エージェント検索の解禁
SSRL:自己探索強化学習
タイム:画像を超えて考える
文化的知識を用いた多言語多モーダル大規模言語モデルの接地
HiFiTTS-2:大規模高帯域音声データセット
CryptoScope:大規模言語モデルを活用した暗号論的論理バグの自動検出
医療グラフRAG:グラフ検索拡張生成による安全な医療大規模言語モデルへの道
Puppeteer:3Dモデルのラギングおよびアニメーション化
STream3R:因果トランスフォーマーを用いたスケーラブルな順次3次元再構成
序章:長文脈にわたる全体的理解と推論を要するベンチマーク
ToonComposer:生成後キーふりによるアニメ制作の効率化
NextStep-1:スケールにおける連続トークンを用いた自己回帰型画像生成へ
We-Math 2.0:視覚的数学的推論を促進するための汎用数学書システム
COREVQA:クラウド観察と推論包含を備えた視覚質問応答ベンチマーク
RelayFormer:スケーラブルな画像および動画操作の局所的・包括的注意力枠組み
GMF-Drive:空間認識型BEV表現を備えたゲート付きMamba融合によるエンドツーエンド自動運転
見る、聞く、覚える、推論する:長期記憶を備えたマルチモーダルエージェント
拡散型LLMは離散的拡散強制を用いて、ARより高速な推論が可能になる
AWorld:安定した旋回を実現する動的マルチエージェントシステムによるロバストなGAIA問題解決
Story2Board:表現力豊かなストーリーボード生成のためのトレーニングフリーなアプローチ
スタンドイン:動画生成のための軽量かつ即時接続型アイデンティティ制御
Mol-R1:分子発見における明示的長期CoT推論への挑戦
Llama-Nemotron:効率的な推論モデル
ドキュメントヘイストック:長文脈マルチモーダル画像/ドキュメント理解を対象としたビジョンLLMベンチマーク
Echo-4o:GPT-4oによる合成画像の力を活用した画像生成の向上
ラベルフリー組織のイメージングマススペクトロメトリーにおけるバーチャル染色
VisCodex:視覚モデルとコーディングモデルの統合による統一されたマルチモーダルコード生成
HierSearch:ローカル検索とWeb検索を統合した階層型エンタープライズディープサーチフレームワーク
時刻は特徴である:拡散言語モデルにおける時系列ダイナミクスの活用
CharacterShot:制御可能かつ一貫性のある4Dキャラクターアニメーション
テンターンを越えて:大規模非同期強化学習を用いた長期的エージェント検索の解禁