要約
道路状況における注意散漫の認識は、交通事故の低減に不可欠である。従来、動画ベースのネットワークが一般的に用いられてきたが、計算コストが高く、視点の変化に対して脆弱であるという課題がある。本研究では、音声認識ネットワークを活用したポーズベースのドライバー行動分類の新たなアプローチを提案する。この手法は動画ベースのアプローチに比べて軽量であり、視点変化に対してより頑健である。音声データとポーズデータの情報符号化における類似性に着目し、時間経過にわたる関節ポイントとしてポーズを表現する。提案アーキテクチャは、効率的なアテンションベース音声認識ネットワークであるSqueezeformerを基盤としている。さらに、汎化性能を向上させるために複数のデータ拡張技術を導入した。Drive&Actデータセットを用いた実験により、最先端手法と比較して優れた性能を示した。また、物体情報の統合と視点変化の影響についても検討した。本研究の結果は、音声認識ネットワークがポーズベース行動分類において有効かつ堅牢であることを示している。