13日前

RLIPv2:関係性言語画像事前学習の高速スケーリング

Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao
RLIPv2:関係性言語画像事前学習の高速スケーリング
要約

関係性言語-画像事前学習(Relational Language-Image Pre-training, RLIP)は、視覚表現を関係性を持つテキストと整合させることにより、コンピュータビジョンタスクにおける関係性推論能力を向上させることを目的としています。しかし、RLIPv1アーキテクチャの収束が遅く、既存のシーングラフデータの入手可能性が限られていることから、RLIPv1のスケーリングは困難です。本論文では、大規模な疑似ラベル付きシーングラフデータへの関係性事前学習のスケーリングを可能にする高速収束型モデルであるRLIPv2を提案します。高速スケーリングを実現するため、RLIPv2は非対称言語-画像融合(Asymmetric Language-Image Fusion, ALIF)機構を導入しています。ALIFは、言語エンコーディング層を疎化(スパース化)することで、より早期かつより深くゲート付きのクロスモーダル融合を実現します。これにより、事前学習および微調整において、RLIPv1と同等またはより優れた性能を、はるかに短時間で達成できます。大規模なシーングラフデータを取得するため、対象検出データセットに自由形式の関係ラベルを付加する手法を提案し、BLIPなどのキャプション生成モデルと、独自に設計された関係タグ付け機構(Relation Tagger)を用いて、生成された関係テキストを領域ペアに割り当てます。このアプローチにより、より大規模な関係性事前学習が可能になります。ヒューマンオブジェクトインタラクション検出およびシーングラフ生成の広範な実験を通じて、RLIPv2は完全微調整、少データ(few-shot)、ゼロデータ(zero-shot)の各設定において、3つのベンチマークで最先端の性能を示しました。特に、最大規模のRLIPv2は、微調整なしでHICO-DETで23.29mAPを達成し、1%のデータで32.22mAP、100%のデータで45.09mAPを記録しました。コードとモデルは、https://github.com/JacobYuan7/RLIPv2 にて公開されています。

RLIPv2:関係性言語画像事前学習の高速スケーリング | 最新論文 | HyperAI超神経