
要約
本稿では、マルチモーダル特徴を活用して生成型事前学習言語モデルの分子画像キャプション生成性能を向上させるための新たな手法であるMol2Lang-VLMを紹介する。本手法は、Transformerベースのアーキテクチャにおけるエンコーダーとデコーダーのブロックに、新たに第三のサブレイヤーを導入することで、より高精度なキャプション生成を実現している。具体的には、エンコーダー側にはSELFIES文字列と分子画像の特徴を融合するサブレイヤーを挿入し、デコーダー側にはSMILES文字列とその対応する記述文の特徴を融合する構成としている。さらに、従来のマルチヘッドアテンションに代えてクロスマルチヘッドアテンションを採用することで、デコーダーがエンコーダーの出力に注目できるようにし、符号化された文脈情報を効果的に統合することにより、より正確かつ質の高いキャプション生成を可能にしている。CheBI-20およびL+M-24というベンチマークデータセットにおける性能評価結果から、Mol2Lang-VLMが既存手法に比べて高い精度と品質を達成していることが示された。本研究のコードおよび事前処理済みデータは、https://github.com/nhattruongpham/mol-lang-bridge/tree/mol2lang/ にて公開されている。