7ヶ月前

ビデオ理解

マルチモーダル

音声および音声処理

オーディオ

マルチモーダル

コンピュータビジョン

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

本研究の目的は、音声が存在する与否に関わらず、話している顔からフレーズや文章を認識することである。従来の研究では限られた数の単語やフレーズの認識に焦点を当てていたのに対し、我々は唇読みをオープンワールド問題として取り組む - 制約のない自然言語の文章と、実際の映像での認識である。我々の主な貢献は以下の通りである：(1) 唇の動きのビデオを文字に転写する学習を行う「ウォッチ、リッセン、アテンド、アンドスペル」（Watch, Listen, Attend and Spell: WLAS）ネットワーク；(2) 学習を加速し、過学習を抑制するカリキュラム学習戦略；(3) 英国のテレビ番組から10万件以上の自然な文章を集めた視覚的な音声認識用データセット「Lip Reading Sentences」（LRS）。LRSデータセットで訓練されたWLASモデルは、標準的な唇読みベンチマークデータセットにおけるすべての従来研究を超える性能を示しており、しばしば大幅に上回っている。この唇読み性能はBBCテレビジョンからの映像でプロの唇読み師を上回り、また我々は視覚的情報が音声が利用可能であっても音声認識性能を向上させる手助けになると示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

ビデオ理解

マルチモーダル

音声および音声処理

オーディオ

マルチモーダル

コンピュータビジョン

Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

本研究の目的は、音声が存在する与否に関わらず、話している顔からフレーズや文章を認識することである。従来の研究では限られた数の単語やフレーズの認識に焦点を当てていたのに対し、我々は唇読みをオープンワールド問題として取り組む - 制約のない自然言語の文章と、実際の映像での認識である。我々の主な貢献は以下の通りである：(1) 唇の動きのビデオを文字に転写する学習を行う「ウォッチ、リッセン、アテンド、アンドスペル」（Watch, Listen, Attend and Spell: WLAS）ネットワーク；(2) 学習を加速し、過学習を抑制するカリキュラム学習戦略；(3) 英国のテレビ番組から10万件以上の自然な文章を集めた視覚的な音声認識用データセット「Lip Reading Sentences」（LRS）。LRSデータセットで訓練されたWLASモデルは、標準的な唇読みベンチマークデータセットにおけるすべての従来研究を超える性能を示しており、しばしば大幅に上回っている。この唇読み性能はBBCテレビジョンからの映像でプロの唇読み師を上回り、また我々は視覚的情報が音声が利用可能であっても音声認識性能を向上させる手助けになると示した。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

野生環境下でのリップリーディング文 | 記事 | HyperAI超神経