
要約
視覚音声認識(VSR)は、音声ストリームに依存せずに、唇の動きに基づいて音声の内容を認識することを目指しています。深層学習の進歩と大規模なオーディオビジュアルデータセットの利用可能性により、これまでにないほど正確で堅牢なVSRモデルの開発が可能になりました。しかし、これらの進歩は通常、より大きな訓練データセットによるものであり、モデル設計によるものではありません。本研究では、より良いモデル設計が大きな訓練データセットを使用することと同じくらい重要であることを示します。私たちは予測に基づく補助タスクをVSRモデルに追加することを提案し、ハイパーパラメータ最適化と適切なデータ拡張の重要性を強調します。実験結果から、当該モデルは異なる言語に対しても有効であり、公開されているデータセットで訓練されたすべての従来の手法を大幅に上回ることが示されました。さらに、非公開データセットで最大21倍以上のデータ量で訓練されたモデルよりも優れていることも確認されました。また、他の言語や自動生成されたトランスクリプションを使用した追加の訓練データを利用することで、さらなる性能向上が得られることも示しました。この翻訳は以下の要件に基づいて行われました:1. 内容の正確さ:専門用語や技術概念を正しく翻訳し、学術的な表現を使用しました。2. 表現の流暢さ:日本語の表現習慣に合わせて自然な文章を作成しました。3. 表述の正式性:正式かつ客観的な科学技術ニュースや学術論文のスタイルを採用しました。4. 原文への忠実さ:原文の意図を保ちつつ、文章構造を最適化して日本語読者にとって読みやすいようにしました。ご確認いただければ幸いです。