1ヶ月前

LRW-1000: 自然分布された大規模ベンチマークデータセットによる野生環境下のリップリーディング評価

Shuang Yang; Yuanhang Zhang; Dalu Feng; Mingmin Yang; Chenhao Wang; Jingyun Xiao; Keyu Long; Shiguang Shan; Xilin Chen
LRW-1000: 自然分布された大規模ベンチマークデータセットによる野生環境下のリップリーディング評価
要約

大規模データセットは、いくつかの研究分野においてその基本的重要性を次々と証明しており、特に新興トピックの初期段階での進展に寄与しています。本論文では、近年ますます注目を集めている視覚的な音声認識(リップリーディング)の問題に焦点を当てています。私たちは、自然に分散された大規模ベンチマークであるLRW-1000を提示します。このデータセットには、2,000人以上の話者から収集された718,018サンプルが含まれており、1,000クラスで構成されています。各クラスは、一文字または複数の漢字からなる中国語単語の音節に対応しています。私たちが知る限り、これは現在最大級の単語レベルのリップリーディングデータセットであり、また公開されている大規模な中国語リップリーディングデータセットとしては唯一のものです。このデータセットは、異なる発話モードや撮影条件における「自然」な変動性をカバーすることを目指しており、実際のアプリケーションで遭遇する課題を取り入れています。サンプル数、ビデオ解像度、照明条件、話者の属性(姿勢、年齢、性別、メイクなど)などの面で大きな変動性があることが示されています。データセットとその収集プロセスについて詳細な説明を提供するだけでなく、典型的な人気のあるリップリーディング手法を評価し、結果を多角的に徹底分析しました。結果は私たちのデータセットの一貫性と課題を示しており、今後の研究に対して新たな有望な方向性を開く可能性があります。

LRW-1000: 自然分布された大規模ベンチマークデータセットによる野生環境下のリップリーディング評価 | 最新論文 | HyperAI超神経