HyperAIHyperAI

Command Palette

Search for a command to run...

音声視覚音声認識における再帰型ニューラルネットワークトランシデューサー

Takaki Makino Hank Liao Yannis Assael Brendan Shillingford Basilio Garcia Otavio Braga Olivier Siohan

概要

本研究では、再帰型ニューラルネットワークトランシューダー(RNN-T)アーキテクチャを基盤とする大規模な音声・視覚連携音声認識システムを提案する。このシステムの開発を支援するため、YouTubeの公開動画から抽出したセグメント化された発話データを用いて、大規模な音声・視覚(A/V)データセットを構築した。その結果、合計31,000時間に及ぶ音声・視覚学習データが得られた。本システムの音声のみ、視覚のみ、および音声・視覚連携の各モードにおける性能を、2つの大語彙テストセット上で比較評価した。具体的には、公開YouTube動画から抽出された発話セグメントから構成されるYTDEV18および公開されているLRS3-TEDデータセットを用いた。視覚モダリティの貢献を強調するため、背景ノイズや発話の重なりが人工的に加えられたYTDEV18データセット上でも性能を評価した。現時点で知られている限り、本システムはLRS3-TEDデータセットにおいて、既存の最先端技術を顕著に上回る性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています