HyperAIHyperAI

Command Palette

Search for a command to run...

DCASE 2021 チャレンジ タスク6 システム:弱教師あり事前学習および語選択手法を用いた自動音声キャプション生成

Zhen Yang Xiang Li Dong Liu Qichen Han∗ Weiqiang Yuan ∗

概要

本技術報告では、DCASE 2021チャレンジ、タスク6「自動音声キャプション(automated audio captioning)」への参加システムについて記述する。本研究では、音声理解およびキャプション生成のためのエンコーダ-デコーダモデルフレームワークを採用している。提案手法は、自動音声キャプションにおける2つの課題、すなわちデータ不足と語彙選択の不確定性を解決することを目的としている。実際のグレートキャプション(golden captions)付き音声データが限られているため、ヒューリスティック手法を用いてウェブ上から大規模な弱教師付きデータセットを収集した。その後、このデータセットを用いてエンコーダ-デコーダモデルを事前学習し、Clothoデータセット上で微調整(fine-tuning)を行った。語彙選択の不確定性を緩和するために、類似音声のキャプションから抽出したキーワードおよび事前学習済みモデルが生成した音声イベントタグを用いて、デコード段階における語の生成をガイドした。開発用テストデータセットを用いて提出物を評価した結果、最良の提出結果はSPIDErスコア31.8を達成したのに対し、ベースラインシステムのスコアは5.4であった。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています