HyperAIHyperAI

Command Palette

Search for a command to run...

オーディオ フラミンゴ:ショット数が少ない学習と対話能力を持つ新しい音声言語モデル

Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro

概要

大規模言語モデル(LLMs)を音声理解に拡張し、非会話音や非言語的な会話を含む音声を扱えるようにすることは、LLMsの多様な実世界応用において極めて重要です。本論文では、Audio Flamingoという新しい音声言語モデルを提案します。このモデルは1) 高度な音声理解能力、2) コンテキスト学習と検索を通じて未知のタスクに迅速に対応する能力、3) 強力なマルチターン対話能力を持つことを特徴としています。これらの能力を強化するために、一連の訓練手法、アーキテクチャ設計、データ戦略を導入しています。様々な音声理解タスクにおける広範な評価により、当社の方法の効果が確認され、新たな最先端のベンチマークが設定されました。デモウェブサイトは https://audioflamingo.github.io/ で公開されており、コードはオープンソース化され https://github.com/NVIDIA/audio-flamingo で提供されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています