
要約
セマンティックセグメンテーションにおいて、従来のリアルタイム深度学習モデルは各フレームを独立して学習するため、動画シーケンス全体で結果に一貫性が欠ける場合がある。これに対して、先進的な手法では動画シーケンス内の相関関係を考慮し、光学フローを用いて結果を隣接フレームに伝播する、または他のフレームを用いて現在のフレームの表現を抽出するなどのアプローチが採用されている。しかし、これらの方法は正確性の低下やレイテンシの不均衡を引き起こす可能性がある。本研究では、推論プロセスにおいて各フレームを独立して処理する効率的なセマンティック動画セグメンテーション手法を提案する。従来の各フレーム独立モデルとは異なり、我々は学習段階でフレーム間の時間的一貫性を追加の制約条件として明示的に取り入れ、それをセグメンテーションネットワークに組み込む。その結果、推論時には各フレームを独立に処理でき、追加のレイテンシを発生させず、追加の計算コストや後処理を必要とせずに時間的一貫性を向上させることができる。リアルタイム実行を実現するためにコンパクトなモデルを採用し、コンパクトモデルと大規模モデルの性能ギャップを縮小するために、新たな知識蒸留手法を設計した。実験結果は、CityscapesやCamVidを含む主要なベンチマークにおいて、従来のキーフレームベース手法と比較して、精度と推論速度のバランスが優れていることを示している。また、各フレームを独立して学習する対応するベースラインと比較して、時間的一貫性も向上している。コードは以下のURLから公開されている:https://tinyurl.com/segment-video