オーディオビジュアル音声認識 | SOTA | HyperAI超神経

音声と映像を組み合わせてテキストに変換するタスクである音声視覚的音声認識は、視覚情報と聴覚情報を統合することで、騒音環境での音声転記、リップリーディング支援、およびマルチモーダルな人間とコンピュータの対話における音声認識の精度と堅牢性を向上させる技術です。この技術には、大きな応用価値があります。

Whisper-Flamingo