17日前
バイモーダル・セグネット:ロボットハンドリングのためのイベントとRGBフレームを統合したインスタンスセグメンテーション
Sanket Kachole, Xiaoqian Huang, Fariborz Baghaei Naeini, Rajkumar Muthusamy, Dimitrios Makris, Yahya Zweiri

要約
動的条件下におけるロボット把持のためのオブジェクトセグメンテーションは、遮蔽、低照度、運動ブラー、オブジェクトサイズの変動といった課題に直面することが多い。これらの課題に対処するため、本研究ではイベントベースデータとRGBフレームデータという2種類の視覚信号を融合する深層学習ネットワークを提案する。提案するバイモーダル・セグネット(Bimodal SegNet)は、それぞれの信号入力に対応する2つの独立したエンコーダと、アトリウス畳み込みを用いた空間ピラミッドプーリングを備えている。エンコーダは異なる解像度での特徴量を連結してプーリングすることで、豊かな文脈情報を捉え、デコーダは明確なオブジェクト境界を再構成する。本手法の評価は、イベントベースセグメンテーション(ESD)データセット上で、遮蔽、ブラー、明るさ、軌道、スケールの変動という5つの特徴的な画像劣化状況を含む設定で実施された。評価結果により、平均交差率(mIoU)およびピクセル精度において、最先端手法と比較して6〜10%のセグメンテーション精度の向上が確認された。モデルのコードは、https://github.com/sanket0707/Bimodal-SegNet.git にて公開されている。