
要約
視覚入力を含む音声・視覚アプローチは、近年の音声分離技術の進展の基盤を築いてきた。しかし、聴覚と視覚の同時利用の最適化については、依然として活発な研究が進められている。脳皮質-視床-脳皮質回路(cortico-thalamo-cortical circuit)に着想を得た本研究では、異なる感覚モダリティの処理機構が非lemniscal感覚視床を介して互いに調節するという神経メカニズムを模倣し、音声・視覚音声分離(AVSS)を目的とした新しい脳皮質-視床-脳皮質ニューラルネットワーク(CTCNet)を提案する。まず、CTCNetは、聴覚サブネットワークと視覚サブネットワークを別々に構成し、下位から上位への階層的聴覚および視覚表現を学習することで、聴覚および視覚皮質領域の機能を模倣する。次に、皮質領域と視床の間の多数の接続に着目し、上位からの接続を用いて視床サブネットワーク内で聴覚情報と視覚情報を統合する。最後に、統合された情報を再び聴覚および視覚サブネットワークへとフィードバックし、このプロセスを複数回繰り返す。3つの音声分離ベンチマークデータセットにおける実験結果から、CTCNetは従来のAVSS手法と比較して顕著な性能向上を達成しつつ、パラメータ数を著しく削減していることが示された。これらの結果は、哺乳類脳の解剖学的接続構造(anatomical connectome)を模倣することが、深層ニューラルネットワークの発展に大きな可能性を秘めていることを示唆している。プロジェクトのレポジトリは以下の通り:https://github.com/JusperLee/CTCNet。