Trans4Trans:リアルワールドナビゲーション支援における透明物体および意味的シーンセグメンテーションのための効率的Transformer

透明な物体、例えばガラス製の壁やドアは、視覚障害または低視力を持つ人々の移動を妨げる建築上の障害物となる。たとえば、ガラスドアの背後にある空間は、正しく認識されかつ適切に扱われない限り、アクセス不可能となる。しかし、従来の補助技術は、こうした安全上重要な透明物体のセグメンテーションをほとんどカバーしていない。本論文では、一般物体および透明物体の両方をセグメント可能な新規の二重ヘッドTransformerモデル「Trans4Trans」を搭載したウェアラブルシステムを構築した。このモデルは、二つの密なセグメンテーション結果を深度情報と統合することで、ユーザーが安全にナビゲーションできるように支援し、透明な障害物を効果的に回避する手助けを行う。また、Transformerベースのデコーダにおいてマルチスケール特徴の解釈を実現する軽量なTransformer解析モジュール(TPM)を提案する。TPMの導入により、二重デコーダは対応するデータセットから共同学習を実現し、堅牢性を高める一方で、ポータブルGPU上で計算負荷の増加をほとんど抑えつつ効率性を維持できる。全体として、Trans4Transモデルは対称的なエンコーダ・デコーダアーキテクチャで構成されており、Stanford2D3DおよびTrans10K-v2データセットのテストセットにおいて、最先端手法を上回る性能を発揮し、それぞれmIoU 45.13%および75.14%を達成した。屋内および屋外環境で実施したユーザー調査および多数の前段階テストを通じて、本補助システムの利便性と信頼性が広範に検証された。さらに、Trans4Transモデルはドライビングシーン用データセットにおいても優れた性能を示した。一般的な環境を想定したCityscapes、悪天候を想定したACDC、交通事故シーンを想定したDADA-segデータセットにおいて、それぞれmIoU 81.5%、76.3%、39.2%を達成し、実世界の交通分野における高い効率性と堅牢性を示している。