2ヶ月前
HyperSeg: 大規模言語モデルを用いた普遍的な視覚セグメンテーションへ向けた研究
Cong Wei; Yujie Zhong; Haoxian Tan; Yong Liu; Zheng Zhao; Jie Hu; Yujiu Yang

要約
本論文は、Visual Large Language Models(VLLMs)の強力な推論能力を活用して、画像と動画認識のための普遍的なセグメンテーションに取り組むことを目指しています。現在の統一セグメンテーション手法には大きな進歩がありますが、画像と動画の両方のシナリオへの適応や複雑な推論セグメンテーションにおける制限により、様々な課題的な指示に対処し、微細な視覚言語相関を正確に理解することが困難となっています。我々はHyperSegを提案します。これは、ピクセルレベルでの画像と動画認識を対象とした初のVLLMベースの普遍的セグメンテーションモデルであり、一般的なセグメンテーションタスクだけでなく、強力な推論能力和世界知識が必要なより複雑な推論認識タスクも含みます。さらに、VLLMsの認識能力と微細な視覚情報を最大限に活用するために、HyperSegはハイブリッドエンティティ認識モジュールと微細な視覚パーサーモジュールを組み込んでおり、様々なセグメンテーションタスクに対応しています。時間適応器との組み合わせにより、HyperSegは時間情報の包括的理解を達成します。実験結果は、我々の洞察が普遍的な画像および動画セグメンテーションタスク、特により複雑な推論認識タスクにおいて有効であることを証明しています。当該コードは公開されています。