LVIS Challenge Track 技術レポート 1位ソリューション:大規模語彙インスタンスセグメンテーションにおける分布バランス化と境界の精緻化

本報告では、LVIS Challenge 2021に参加したチームFuXi-Fresherの技術的詳細を紹介する。本手法は、以下の2つの課題に焦点を当てている:長尾分布(long-tail distribution)の問題と、マスクおよび境界のセグメンテーション品質の向上。先進的なHTC(Hybrid Task Cascade)インスタンスセグメンテーション手法をベースとし、CBNetv2のインスパイアを受けた複合接続(composite connections)を用いて、Swin-Lをトランスフォーマーベースのバックボーンとして接続することで、ベースライン性能を向上させた。長尾分布の問題緩和のため、データセットのバランス化と損失関数のバランス化を含む「Distribution Balanced(分布バランス化)」手法を設計した。さらに、マスクスコアリングとリファインマスク(refine-mask)アルゴリズムを組み合わせた「Mask and Boundary Refinement(マスク・境界の精緻化)」手法を導入し、セグメンテーション品質を向上させた。また、予期せぬ成果として、早期停止(early stopping)とEMA(Exponential Moving Average)手法を組み合わせることで、著しい性能向上が達成されたことがわかった。最終的に、マルチスケールテストの導入および1画像あたりの検出対象数の上限を引き上げることで、LVIS Challenge 2021の検証セット(val set)において境界AP(boundary AP)が45.4%以上を達成した。テストデータにおいては第1位となり、APが48.1%を記録した。特に、APr(AP for rare categories)が47.5%と、APf(AP for frequent categories)の48.0%に非常に近い結果を達成した。