日付

2年前

サイズ

189.87 GB

データセット構成

公開URL

Paper URL

タグ

VoiceAssistant-400K は、音声アシスタント用に特別に最適化されたデータセットで、音声アシスタントサービスを提供する際にモデルがコードシンボルの生成を削減し、実際のアプリケーションでのモデルの実用性を高めるのに役立つように設計されています。このデータセットは、ミニオムニモデルの音声出力をトレーニングおよび最適化するために開発され、2024 年に清華大学の研究チームによって開始されました。関連する論文結果は「ミニオムニ: 言語モデルはストリーミングで考えながら聞いて話すことができます”。 Mini-Omni は、リアルタイム対話機能とエンドツーエンドの音声入出力機能を備えたオープンソースのマルチモーダル大規模言語モデルです。独自のテキストガイドによる並列生成方法により、テキスト機能と一致した音声推論出力が実現され、追加のデータとモジュールは最小限で済みます。 VoiceAssistant-400K データセットは、音声アシスタントサービスを提供する際のモデルのパフォーマンスをサポートするために、3 段階のトレーニングプロセスを通じて音声からテキストへのアダプターとテキストから音声へのアダプターを最適化します。これらの段階には、モーダル調整、適応トレーニング、マルチモーダル微調整が含まれます。モーダル調整段階では、音声認識と音声合成からのデータを使用して、モデルの音声認識と合成機能がトレーニングされます。適応トレーニングフェーズは、音声入力を前提としたモデルのテキスト機能のトレーニングに焦点を当てます。最後のマルチモーダル微調整ステージでは、包括的なデータを使用してモデル全体を微調整し、マルチモーダル出力の品質を確保します。

VoiceAssistant-400K.torrent

シーディング 1ダウンロード中 0完了 290総ダウンロード数 309