HyperAIHyperAI

Command Palette

Search for a command to run...

マルチモーダル参照セグメンテーション:サーベイ

Henghui Ding Song Tang Shuting He Chang Liu Zuxuan Wu Yu-Gang Jiang

概要

マルチモーダル参照セグメンテーションは、画像、動画、3Dシーンなどの視覚的シーンにおいて、テキストまたは音声形式の参照表現に基づいて対象オブジェクトをセグメンテーションすることを目的とする。このタスクは、ユーザーの指示に基づく正確なオブジェクト認識を要する実用的応用において重要な役割を果たす。過去10年間、畳み込みニューラルネットワーク、トランスフォーマー、大規模言語モデルの進展に伴い、マルチモーダル分野において大きな注目を集めている。これらの技術は、マルチモーダル認識能力を著しく向上させている。本論文では、マルチモーダル参照セグメンテーションについて包括的なサーベイを提供する。まず、この分野の背景として、問題定義や一般的に用いられるデータセットを紹介する。次に、参照セグメンテーションのための統一的なメタアーキテクチャをまとめ、画像、動画、3Dシーンの3つの主要な視覚シーンにおける代表的な手法をレビューする。さらに、現実世界の複雑さに対応するための一般化された参照表現(Generalized Referring Expression: GREx)手法について議論し、関連するタスクや実用的応用も併せて述べる。標準ベンチマークにおける広範な性能比較も提示する。関連研究の動向は、継続的に https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation で追跡している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています