HyperAIHyperAI

Command Palette

Search for a command to run...

リップリーディングのために残差ネットワークとLSTMを組み合わせる

Themos Stafylakis Georgios Tzimiropoulos

概要

単語レベルの視覚音声認識向けのエンドツーエンドの深層学習アーキテクチャを提案します。本システムは、時空間畳み込み、残差、および双方向長期短期記憶(LSTM)ネットワークの組み合わせで構成されています。私たちは、BBCテレビ放送から抽出した1.28秒のビデオ断片で構成される500単語規模の難易度の高い「Lipreading In-The-Wild」ベンチマークデータベース上で、このシステムを訓練および評価しました。提案されたネットワークは、単語認識精度が83.0%に達し、既存の最先端技術に対して6.8ポイントの絶対的な改善をもたらしました。これは、訓練やテストにおいて単語境界に関する情報を使用せずに達成された結果です。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています