HyperAIHyperAI

Command Palette

Search for a command to run...

皮質-視床-皮質回路に着想を得た音声・視覚同時音声分離モデル

Kai Li Fenghua Xie Hang Chen Kexin Yuan Xiaolin Hu

概要

視覚入力を含む音声・視覚アプローチは、近年の音声分離技術の進展の基盤を築いてきた。しかし、聴覚と視覚の同時利用の最適化については、依然として活発な研究が進められている。脳皮質-視床-脳皮質回路(cortico-thalamo-cortical circuit)に着想を得た本研究では、異なる感覚モダリティの処理機構が非lemniscal感覚視床を介して互いに調節するという神経メカニズムを模倣し、音声・視覚音声分離(AVSS)を目的とした新しい脳皮質-視床-脳皮質ニューラルネットワーク(CTCNet)を提案する。まず、CTCNetは、聴覚サブネットワークと視覚サブネットワークを別々に構成し、下位から上位への階層的聴覚および視覚表現を学習することで、聴覚および視覚皮質領域の機能を模倣する。次に、皮質領域と視床の間の多数の接続に着目し、上位からの接続を用いて視床サブネットワーク内で聴覚情報と視覚情報を統合する。最後に、統合された情報を再び聴覚および視覚サブネットワークへとフィードバックし、このプロセスを複数回繰り返す。3つの音声分離ベンチマークデータセットにおける実験結果から、CTCNetは従来のAVSS手法と比較して顕著な性能向上を達成しつつ、パラメータ数を著しく削減していることが示された。これらの結果は、哺乳類脳の解剖学的接続構造(anatomical connectome)を模倣することが、深層ニューラルネットワークの発展に大きな可能性を秘めていることを示唆している。プロジェクトのレポジトリは以下の通り:https://github.com/JusperLee/CTCNet


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています