画像の分割を参照する

参照画像セグメンテーション (略して RIS、参照セグメンテーションとも呼ばれます) は、自然言語表現によって参照されるターゲット オブジェクトをセグメント化することを目的としています。ただし、以前の方法は、文が画像内のオブジェクトを説明する必要があるという強い前提に依存していますが、実際のアプリケーションではそうでないことがよくあります。したがって、式がオブジェクトを参照していないか、複数のオブジェクトを参照している場合、このようなメソッドは失敗します。

指示対象画像のセグメンテーションの目的は、自然言語表現を通じて指示対象をセグメント化することです。テキストと画像ではデータのプロパティが異なるため、ネットワークがテキストとピクセルレベルの特徴を適切に調整することは困難です。