Command Palette
Search for a command to run...
オーディオ フラミンゴ:ショット数が少ない学習と対話能力を持つ新しい音声言語モデル
オーディオ フラミンゴ:ショット数が少ない学習と対話能力を持つ新しい音声言語モデル
Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro
概要
大規模言語モデル(LLMs)を音声理解に拡張し、非会話音や非言語的な会話を含む音声を扱えるようにすることは、LLMsの多様な実世界応用において極めて重要です。本論文では、Audio Flamingoという新しい音声言語モデルを提案します。このモデルは1) 高度な音声理解能力、2) コンテキスト学習と検索を通じて未知のタスクに迅速に対応する能力、3) 強力なマルチターン対話能力を持つことを特徴としています。これらの能力を強化するために、一連の訓練手法、アーキテクチャ設計、データ戦略を導入しています。様々な音声理解タスクにおける広範な評価により、当社の方法の効果が確認され、新たな最先端のベンチマークが設定されました。デモウェブサイトは https://audioflamingo.github.io/ で公開されており、コードはオープンソース化され https://github.com/NVIDIA/audio-flamingo で提供されています。