野生における透明物体のセグメンテーション

ガラスで作られた窓やボトルなど、透明な物体は現実世界に広く存在する。透明物体のセグメンテーションは、背景画像から引き継がれる多様な外観により、周囲の環境と類似した外見を持つため、極めて困難な課題である。このタスクの技術的難易度に加え、これまでの研究でこの課題を特に対象としたデータセットは少数にとどまり、多くの既存データセットには重大な欠点が存在する。具体的には、手動アノテーションが付与されていない千枚程度の画像に限定されたサンプルサイズを持つものや、すべてコンピュータグラフィックスによって生成された(つまり実画像ではない)画像から構成されたものである。この重要な課題に対処するため、本研究では実際のシナリオを対象とした10,428枚の画像から構成され、慎重な手動アノテーションが施された大規模データセット「Trans10K」を提案する。これは既存のデータセットと比べて10倍以上の規模を有する。Trans10Kに含まれる透明物体は、スケール、視点、隠蔽(オクルージョン)の面で極めて多様であり、図1に示すように非常に高い難易度を持つ。Trans10Kの有効性を評価するため、境界情報を活用して透明物体のセグメンテーション精度を向上させる新たな境界意識型手法「TransLab」を提案する。広範な実験およびアブレーションスタディにより、Trans10Kの有効性が確認されるとともに、TransLabにおけるオブジェクト境界の学習が実用的であることが裏付けられた。例えば、TransLabは深層学習に基づく20の最近のオブジェクトセグメンテーション手法を顕著に上回る性能を示しており、このタスクが依然としてほとんど解決されていないことを示している。本研究では、Trans10KとTransLabが学術界および産業界において重要な貢献を果たすものと確信しており、今後の研究および応用の促進に寄与することが期待される。