5ヶ月前

監視付き微調整

音声および音声処理

アプローチ／フレームワーク

オーディオ

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

概要

本稿では、スピーカー認識型大規模言語モデル（SALLM）を、音声質問応答や自動音声翻訳などオープンフォーマットの音声理解タスク上で学習するための、グループ相対的ポリシー最適化（GRPO）に基づく手法を提案する。SALLMは、音声理解タスクにおいて高い有効性が実証されている。一方、GRPOは大規模言語モデル（LLM）の学習効率の高さから近年注目を集めている。既存の研究では、GRPOのSALLMへの応用が複数選択形式のタスクに限って検討されている。本研究では、モデルの生成能力をより適切に反映できるオープンフォーマットタスクに着目し、その延長上でのアプローチを展開する。我々の手法は、BLEUスコアを報酬信号として用いるGRPOを活用し、SALLMの最適化を実現している。実証実験の結果、標準的なSFT（Supervised Fine-Tuning）と比較して、複数の重要な指標において優れた性能を示すことを確認した。さらに、本研究ではGRPOにおけるオフポリシーサンプルの導入可能性について検討し、今後の改善の方向性およびさらなる研究の余地を示唆する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

5ヶ月前

監視付き微調整

音声および音声処理

アプローチ／フレームワーク

オーディオ

Avishai Elmakies Hagai Aronowitz Nimrod Shabtay Eli Schwartz Ron Hoory Avihu Dekel

概要

本稿では、スピーカー認識型大規模言語モデル（SALLM）を、音声質問応答や自動音声翻訳などオープンフォーマットの音声理解タスク上で学習するための、グループ相対的ポリシー最適化（GRPO）に基づく手法を提案する。SALLMは、音声理解タスクにおいて高い有効性が実証されている。一方、GRPOは大規模言語モデル（LLM）の学習効率の高さから近年注目を集めている。既存の研究では、GRPOのSALLMへの応用が複数選択形式のタスクに限って検討されている。本研究では、モデルの生成能力をより適切に反映できるオープンフォーマットタスクに着目し、その延長上でのアプローチを展開する。我々の手法は、BLEUスコアを報酬信号として用いるGRPOを活用し、SALLMの最適化を実現している。実証実験の結果、標準的なSFT（Supervised Fine-Tuning）と比較して、複数の重要な指標において優れた性能を示すことを確認した。さらに、本研究ではGRPOにおけるオフポリシーサンプルの導入可能性について検討し、今後の改善の方向性およびさらなる研究の余地を示唆する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています