Command Palette
Search for a command to run...
エコーエックス:音声対音声LLMにおける音響的・意味的ギャップ低減のためのエコー学習へ
エコーエックス:音声対音声LLMにおける音響的・意味的ギャップ低減のためのエコー学習へ
Yuhao Zhang Yuhao Du Zhanchen Dai Xiangnan Ma Kaiqi Kou Benyou Wang Haizhou Li
概要
音声対音声大規模言語モデル(SLLM)は、注目を集めつつある。テキストベースの大規模言語モデル(LLM)を基盤として発展したSLLMは、しばしば知識表現力および推論能力の低下を示す。本研究では、この制約が、現在のSLLM学習枠組みが特徴表現空間における音響-意味ギャップを十分に埋められないことによるものであると仮説を立てた。この問題に対処するため、我々はEchoXを提案する。EchoXは意味表現を活用し、動的に音声学習ターゲットを生成するアプローチを採用している。この手法により、音響情報と意味情報の両方を統合的に学習可能となり、音声言語モデルとしての強力な推論能力を維持することが可能となる。実験結果から、約6,000時間の学習データを用いたEchoXが、複数の知識ベース型質問応答ベンチマークにおいて最先端の性能を達成することが明らかになった。プロジェクトの詳細は、https://github.com/FreedomIntelligence/EchoX にて公開されている。