Command Palette
Search for a command to run...
マルチモーダル参照セグメンテーション:サーベイ
マルチモーダル参照セグメンテーション:サーベイ
Henghui Ding Song Tang Shuting He Chang Liu Zuxuan Wu Yu-Gang Jiang
概要
マルチモーダル参照セグメンテーションは、画像、動画、3Dシーンなどの視覚的シーンにおいて、テキストまたは音声形式の参照表現に基づいて対象オブジェクトをセグメンテーションすることを目的とする。このタスクは、ユーザーの指示に基づく正確なオブジェクト認識を要する実用的応用において重要な役割を果たす。過去10年間、畳み込みニューラルネットワーク、トランスフォーマー、大規模言語モデルの進展に伴い、マルチモーダル分野において大きな注目を集めている。これらの技術は、マルチモーダル認識能力を著しく向上させている。本論文では、マルチモーダル参照セグメンテーションについて包括的なサーベイを提供する。まず、この分野の背景として、問題定義や一般的に用いられるデータセットを紹介する。次に、参照セグメンテーションのための統一的なメタアーキテクチャをまとめ、画像、動画、3Dシーンの3つの主要な視覚シーンにおける代表的な手法をレビューする。さらに、現実世界の複雑さに対応するための一般化された参照表現(Generalized Referring Expression: GREx)手法について議論し、関連するタスクや実用的応用も併せて述べる。標準ベンチマークにおける広範な性能比較も提示する。関連研究の動向は、継続的に https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation で追跡している。