2ヶ月前

機械にコーディングを教える:視覚的注意を使用したニューラルマークアップ生成

Sumeet S. Singh
機械にコーディングを教える:視覚的注意を使用したニューラルマークアップ生成
要約

私たちは、画像から実際の数式のLaTeXマークアップを生成するビジュアルアテンション付きニューラルトランスデューサーモデルを提案します。自然言語、画像、手書き文字、音声、オーディオなどのモダリティで非常に成功したシーケンスモデリングと変換技術を応用し、150単語以上の構文的にも意味的にも正しいLaTeXマークアップコードを生成する画像対マークアップモデルを構築しました。このモデルはBLEUスコア89%を達成し、Im2Latex問題における従来の最先端技術を改善しています。また、ヒートマップ可視化により、アテンションがモデルの解釈にどのように役立つのか、そしてバウンディングボックスデータなしで訓練されたにもかかわらず、画像上のシンボルを正確に検出および局在化できる様子を示しています。注:「Im2Latex」は「画像からLaTeXへの変換」という意味で使用される専門用語です。

機械にコーディングを教える:視覚的注意を使用したニューラルマークアップ生成 | 最新論文 | HyperAI超神経