17日前

音声視覚シーン意識型対話のためのシンプルなベースライン

{ Tamir Hazan, Alexander G. Schwing, Idan Schwartz}
音声視覚シーン意識型対話のためのシンプルなベースライン
要約

最近提案された音声・視覚的情報を考慮した対話タスクは、バーチャルアシスタントやスマートスピーカー、車載ナビゲーションシステムの学習をよりデータ駆動型のアプローチへと進展させる道を開いた。しかし、現在までに、こうしたデバイスの計算エンジンに大量にアクセスするセンサーから意味のある情報を効果的に抽出する方法については、ほとんど知られていない。そこで本稿では、エンド・ツー・エンドで学習可能なシンプルなベースラインを提示し、その性能を詳細に分析する。本手法は、アテンション機構を用いてデータ駆動的に有用な信号と干渉信号を区別する。提案手法は、最近導入された難易度の高い音声・視覚的情報を考慮した対話データセットを用いて評価され、CIDEr指標において現在の最先端技術を20%以上上回る性能を実現することを示した。

音声視覚シーン意識型対話のためのシンプルなベースライン | 最新論文 | HyperAI超神経