2ヶ月前

MaskRIS: 意味歪曲を考慮した参照画像セグメンテーションのデータ拡張

Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
MaskRIS: 意味歪曲を考慮した参照画像セグメンテーションのデータ拡張
要約

参照画像セグメンテーション(RIS)は、自由形式のテキスト記述によって指定された画像内の物体を識別し、セグメント化する高度な視覚言語タスクです。これまでの研究では、視覚と言語の特徴量の対応を主に焦点としていましたが、データ拡張などの訓練手法の探求は十分に行われてきませんでした。本研究では、RISに対する効果的なデータ拡張手法を探求し、新しい訓練フレームワークであるマスキング参照画像セグメンテーション(MaskRIS)を提案します。我々は、従来の画像拡張手法がRISには適していないことから性能が低下することを観察しました。一方で、単純なランダムマスキングがRISの性能を大幅に向上させることも確認しました。MaskRISは画像とテキストの両方に対してマスキングを行い、その後ディストーション認識コンテクスト学習(DCL)を用いてマスキング戦略の利点を最大限に活用します。このアプローチにより、モデルは遮蔽物、不完全な情報、および様々な言語的複雑さに対するロバスト性が向上し、大幅な性能向上が見られます。実験結果から、MaskRISは様々なRISモデルに容易に適用でき、完全教師あり設定および弱教師あり設定において既存の方法を超えることが示されました。最終的に、MaskRISはRefCOCO, RefCOCO+, およびRefCOCOgデータセットで新たな最先端の性能を達成しています。コードはhttps://github.com/naver-ai/maskris で公開されています。