9日前
ドライバーアシスタンスシステムにおけるビジュアルスピーチ認識
{Alexey Karpov, Alexandr Axyonov, Alexey Kashevnik, Dmitry Ryumin, Denis Ivanko}

要約
視覚的発話認識(自動的唇読)は、注目が高まる分野である。音声データが重度にノイズ混入している、あるいは入手不可能な状況下においても、動画データがマルチモーダル発話認識において有用であることが実証されている。本稿では、視覚的発話認識のための新たな手法を提案する。この手法は、代表的な唇読データセットであるLRWデータセット上で評価され、既存手法を上回る性能を示した。さらに包括的な評価を経て、本手法を実車環境下で運転中のドライバーを対象に収集した自作のRUSAVICコーパスに適応・検証した。得られた結果は、提案手法の高い性能を示すとともに、運転という極めて困難な自然環境下においても、音声情報を一切使用せずに動画モダリティのみで発話を認識することが根本的に可能であることを示している。