9日前

データオーバーラップとプライムバッチサイズを用いたシーケンス情報損失の軽減

Noémien Kocher, Christian Scuito, Lorenzo Tarantino, Alexandros Lazaridis, Andreas Fischer, Claudiu Musat
データオーバーラップとプライムバッチサイズを用いたシーケンス情報損失の軽減
要約

系列モデリングタスクにおいてはトークンの順序が重要であるが、シーケンスがデータポイントに離散化される過程で、その情報の一部が失われる可能性がある。本論文では、特定のトークンペアがデータポイントに含まれる一方で、他のペアが含まれないという不均衡に着目する。これを「トークン順序不均衡(Token Order Imbalance: TOI)」と呼ぶ。さらに、このTOIが、テキストおよび音声処理タスクにおけるシステム全体の性能低下と関連していることを示す。その後、データポイントのトークン構成を反復的にオーバーラップさせることで、完全なトークン順序情報を活用するメカニズム「Alleviated TOI」を提案する。再帰型ネットワークでは、オーバーラップされたデータポイントからバッチを構築する際に重複を避けるため、バッチサイズに素数を使用する。提案手法は、テキストおよび音声関連のタスクにおいて、いずれも最先端の性能を達成した。