フレーズ接地

フレーズ・グラウンディングは、自然言語処理のサブタスクの一つで、画像キャプションに登場する名詞句が指す各エンティティを、対応する画像の領域と一致させることが目的です。このタスクは、画像とテキストの間の詳細な関連性を確立することで、マルチモーダルデータの理解と相互作用の能力を向上させます。視覚的な質問応答、画像検索、自動画像注釈などのアプリケーションの性能向上に重要な役割を果たします。

フレーズ接地 | SOTA | HyperAI超神経