
要約
本稿では、単一モーダル入力に対しても音声および視覚情報を活用可能な、新しい音声・視覚マルチモーダル橋渡しフレームワークを提案する。本フレームワークは、記憶ネットワークを用いて、ソースモーダル(すなわち視覚)およびターゲットモーダル(すなわち音声)の表現を記憶する。ここで、ソースモーダル表現とは入力として与えられる表現であり、ターゲットモーダル表現とは記憶ネットワークから得たい表現である。その後、両モーダル間の相互関係を考慮した、ソース記憶とターゲット記憶の間の関連性ブリッジを構築する。この関連性ブリッジを通じて両モーダル間の相互関係を学習することで、ソースモーダル入力のみから記憶ネットワーク内にターゲットモーダル表現を獲得することが可能となり、下流タスクに豊富な情報を提供する。本フレームワークは、リップリーディングおよび無音映像からの音声再構成という2つのタスクに適用した。提案する関連性ブリッジとモーダル固有の記憶を用いることで、各タスクにおいて再現された音声コンテキストにより知識が豊かになり、最先端の性能を達成した。また、関連性ブリッジがソース記憶とターゲット記憶を適切に関連づけていることも実証した。