日付

2ヶ月前

組織

Paper URL

2509.22647

タグ

コンピュータビジョン

CapRLは、中国科学技術大学、香港中文大学、上海人工知能研究所などの研究チームによって2025年9月に提案されました。関連する研究成果は論文「…」に掲載されました。CapRL: 強化学習による高密度画像キャプション機能の刺激”。

CapRLは、実用性を通して記述品質を再定義する、革新的なトレーニングフレームワークです。高品質な記述は、非視覚言語モデルが対応する画像に関する質問に正確に答えられることを可能にします。CapRLは、大規模視覚言語モデル（LVLM）が記述を生成する一方で、別の非視覚大規模言語モデル（LLM）がその記述に基づく多肢選択式質問に回答する際の精度から客観的な報酬を得るという、分離された2段階プロセスを採用しています。CapRLは、CapRL-3BでアノテーションされたCapRL-5M記述データセットで事前トレーニングされており、12のベンチマークで大幅な改善を達成しています。さらに、記述品質評価のためのPrismフレームワークにおいて、そのパフォーマンスはQwen2.5-VL-72Bに匹敵し、ベースラインを平均8.41 TP3T上回ります。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

日付

2ヶ月前

組織

Paper URL

2509.22647

タグ

コンピュータビジョン

Mem-I強化学習フレームワーク

Mem-I は、複数のベンチマークテストで既存のメモリ拡張エージェントベースラインよりも大幅な改善を達成しました。

2ヶ月前

レイアウト制御フレームワーク InstanceAssemble

InstanceAssemble は、マルチモーダル条件下で高品質かつ制御可能な画像生成を可能にします。

2ヶ月前

推測する – 考える – 答える

GTA は、複数のテキスト分類ベンチマークにおいて、標準の SFT ベースラインや最先端の RL 方式を大幅に上回ります。

3ヶ月前

RewardMap、多段階強化学習フレームワーク

RewardMap は、構造化ビジョンタスクにおけるマルチモーダル大規模言語モデルの機能を強化します。

2ヶ月前

レイアウト制御 - レイアウトから画像へ

Layout-to-Image は、画像生成のための柔軟な制御メカニズムを提供します。

2ヶ月前

指数ガウス混合ネットワーク EGMN

EGMN は、ユーザーの好みとビデオ機能間の潜在的な相互作用効果をうまく捉えました。

3ヶ月前

DiDi-Instruct 後トレーニング方法

分布マッチング蒸留を MDM ベースのテキスト生成に正常に適用した最初のフレームワークであり、数ステップの言語シーケンス生成の記録を樹立しました。

2ヶ月前

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

MultiPL-MoEは、事前トレーニング後の段階で低ソースプログラミング言語を拡張するための効果的な方法です。

2ヶ月前

キャッシュツーキャッシュ（C2C）

C2C は、モデル間のキー値 (KV) キャッシュを変換および融合することで、直接的なセマンティック通信を可能にします。

2ヶ月前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

CapRLは強化学習を説明する

AIでAIを構築

HyperAI Newsletters

Command Palette

CapRLは強化学習を説明する

関連 Wiki

Mem-I強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

推測する – 考える – 答える

RewardMap、多段階強化学習フレームワーク

レイアウト制御 - レイアウトから画像へ

指数ガウス混合ネットワーク EGMN

DiDi-Instruct 後トレーニング方法

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

キャッシュツーキャッシュ（C2C）

AIでAIを構築

HyperAI Newsletters

Command Palette

CapRLは強化学習を説明する

関連 Wiki

Mem-I強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

推測する – 考える – 答える

RewardMap、多段階強化学習フレームワーク

レイアウト制御 - レイアウトから画像へ

指数ガウス混合ネットワーク EGMN

DiDi-Instruct 後トレーニング方法

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

キャッシュツーキャッシュ（C2C）

AIでAIを構築

HyperAI Newsletters

関連 Wiki

Mem-I強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

推測する – 考える – 答える

RewardMap、多段階強化学習フレームワーク

レイアウト制御 - レイアウトから画像へ

指数ガウス混合ネットワーク EGMN

DiDi-Instruct 後トレーニング方法

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

キャッシュツーキャッシュ（C2C）

関連 Wiki

Mem-I強化学習フレームワーク

レイアウト制御フレームワーク InstanceAssemble

推測する – 考える – 答える

RewardMap、多段階強化学習フレームワーク

レイアウト制御 - レイアウトから画像へ

指数ガウス混合ネットワーク EGMN

DiDi-Instruct 後トレーニング方法

MultiPL-MoEアーキテクチャ（マルチプログラミング言語MoE）

キャッシュツーキャッシュ（C2C）