6ヶ月前

概要

参照ベースのオブジェクトセグメンテーションタスク、すなわち参照画像セグメンテーション（RIS）、参照動画オブジェクトセグメンテーション（RVOS）、および動画オブジェクトセグメンテーション（VOS）は、自然言語やアノテーション付きマスクといった参照情報を用いて特定のオブジェクトをセグメントすることを目的としている。各分野において顕著な進展が見られつつも、現行の手法はそれぞれのタスクに特化して設計・開発されており、異なる方向性に進展しているため、これらのタスク間でのマルチタスク機能の活用が阻害されている。本研究では、このような分断された状況に終止符を打ち、単一のアーキテクチャで3つの参照ベースオブジェクトセグメンテーションタスクを統一する手法「UniRef」を提案する。本手法の中心となるのは、各タスクに応じた特定の参照情報を適切に処理するためのマルチウェイフィュージョン（多方向融合）であり、その後、統一されたTransformerアーキテクチャを用いてインスタンスレベルのセグメンテーションを実現する。統一された設計により、UniRefは広範なベンチマーク上で共同学習が可能となり、実行時において対応する参照情報を指定することで、柔軟に複数のタスクを実行できる。提案手法の共同学習ネットワークを様々なベンチマーク上で評価した結果、RISおよびRVOSにおいて最先端の性能を達成し、VOSにおいても単一のネットワークで競争力ある結果を示した。

ソースPDF