HyperAI超神経

概要

本研究の目的は、話している顔から音声の有無に関わらずフレーズや文章を認識することである。従来の研究では限られた数の単語やフレーズの認識に焦点を当てていたが、我々は唇読みをオープンワールド問題として取り扱う - 制約のない自然言語の文と、実際の環境でのビデオである。我々の主な貢献は以下の通りである：(1) CTC損失を使用するモデルと、シーケンス・ツー・シーケンス損失を使用するモデルという2つの唇読みモデルを比較した。両方のモデルはトランスフォーマー自己注意アーキテクチャに基づいて構築されている；(2) 音声信号がノイジーな場合特に、唇読みが音声認識との相補性を持つ程度を探った；(3) 新たなオーディオビジュアル音声認識用データセットLRS2-BBC（英国テレビからの数千もの自然な文で構成）を導入し、公開した。我々が訓練したモデルは、既存の唇読みベンチマークデータセットにおける全ての先行研究を大幅に上回る性能を示した。

概要

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

深層音声視覚音声認識

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

深層音声視覚音声認識

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

深層音声視覚音声認識

Triantafyllos Afouras Joon Son Chung Andrew Senior Oriol Vinyals Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters