7ヶ月前

コンピュータビジョン

ビデオ理解

マルチモーダル

マルチモーダル

コンピュータビジョン

Brian Mak Zhe Niu

概要

本稿では、Transformerエンコーダと接続主義的時系列分類（CTC）に基づく連続日本語手話認識（CSLR）システムのさまざまな構成要素に対して、新たな確率的モデリングを提案する。特に重要な点として、各手話語彙（gloss）を複数の状態で表現し、状態数を学習可能な確率分布に従うカテゴリカルな確率変数としてモデル化することで、CTCデコーダの学習にための確率的かつ細粒度なラベルを提供する。さらに、TransformerモデルにおけるCTC損失を用いた学習における深刻な過学習問題に対処するため、確率的フレームドロップ機構と勾配停止手法を提案する。これらの手法は、計算時間およびメモリ使用量の両面で学習計算量を大幅に削減する効果も持つ。提案手法は、代表的なCSLRデータセット上で評価され、最先端手法と比較して有効性が示された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

コンピュータビジョン

ビデオ理解

マルチモーダル

マルチモーダル

コンピュータビジョン

Brian Mak Zhe Niu

概要

本稿では、Transformerエンコーダと接続主義的時系列分類（CTC）に基づく連続日本語手話認識（CSLR）システムのさまざまな構成要素に対して、新たな確率的モデリングを提案する。特に重要な点として、各手話語彙（gloss）を複数の状態で表現し、状態数を学習可能な確率分布に従うカテゴリカルな確率変数としてモデル化することで、CTCデコーダの学習にための確率的かつ細粒度なラベルを提供する。さらに、TransformerモデルにおけるCTC損失を用いた学習における深刻な過学習問題に対処するため、確率的フレームドロップ機構と勾配停止手法を提案する。これらの手法は、計算時間およびメモリ使用量の両面で学習計算量を大幅に削減する効果も持つ。提案手法は、代表的なCSLRデータセット上で評価され、最先端手法と比較して有効性が示された。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

連続的な手話認識のための多状態サイン語の確率的細粒度ラベル付け | 記事 | HyperAI超神経