VoiceAssistant - 400K 音声アシスタント最適化データ セット
VoiceAssistant-400K は、音声アシスタント用に特別に最適化されたデータ セットで、音声アシスタント サービスを提供する際にモデルがコード シンボルの生成を削減し、実際のアプリケーションでのモデルの実用性を高めるのに役立つように設計されています。このデータセットは、ミニオムニモデルの音声出力をトレーニングおよび最適化するために開発され、2024 年に清華大学の研究チームによって開始されました。関連する論文結果は「ミニオムニ: 言語モデルはストリーミングで考えながら聞いて話すことができます”。 Mini-Omni は、リアルタイム対話機能とエンドツーエンドの音声入出力機能を備えたオープンソースのマルチモーダル大規模言語モデルです。独自のテキストガイドによる並列生成方法により、テキスト機能と一致した音声推論出力が実現され、追加のデータとモジュールは最小限で済みます。
VoiceAssistant-400K データセットは、音声アシスタント サービスを提供する際のモデルのパフォーマンスをサポートするために、3 段階のトレーニング プロセスを通じて音声からテキストへのアダプターとテキストから音声へのアダプターを最適化します。これらの段階には、モーダル調整、適応トレーニング、マルチモーダル微調整が含まれます。モーダル調整段階では、音声認識と音声合成からのデータを使用して、モデルの音声認識と合成機能がトレーニングされます。適応トレーニング フェーズは、音声入力を前提としたモデルのテキスト機能のトレーニングに焦点を当てます。最後のマルチモーダル微調整ステージでは、包括的なデータを使用してモデル全体を微調整し、マルチモーダル出力の品質を確保します。
VoiceAssistant-400K.torrent
シーディング 2ダウンロード中 1ダウンロード完了 102総ダウンロード数 86