2ヶ月前

時間におけるランデブー:手術トリプレット認識のためのアテンションベースの時系列融合手法

Sharma, Saurav ; Nwoye, Chinedu Innocent ; Mutter, Didier ; Padoy, Nicolas
時間におけるランデブー:手術トリプレット認識のためのアテンションベースの時系列融合手法
要約

最近の手術AIにおける進歩の一つは、(器具、動詞、対象)という三つ組による手術活動の認識である。コンピュータ支援介入に詳細な情報を提供する一方で、現在の三つ組認識手法は単一フレームの特徴にのみ依存している。過去のフレームから時間的なヒントを活用することで、ビデオからの手術行動三つ組の認識が改善される可能性がある。本論文では、Rendezvous in Time (RiT) と呼ばれる深層学習モデルを提案する。これは最先端モデルであるRendezvousを時間的なモデリングで拡張したモデルである。特に動詞に焦点を当てて、我々のRiTは現在と過去のフレームのつながりを探ることで、時間的な注意に基づく特徴を学習し、三つ組認識を強化する。我々は困難な手術三つ組データセットCholecT45を使用して提案手法を検証し、動詞と三つ組の認識精度が向上することを示すとともに、(器具、動詞)などの動詞に関連する他の相互作用についても同様に改善が見られた。定性的結果は、RiTが多くの三つ組インスタンスに対して最高峰の手法よりも滑らかな予測を生成することを示している。我々は新しい注意に基づくアプローチを提示し、ビデオフレームの時間的融合を利用して手術行動の進化をモデル化し、その利点を利用することで手術三つ組認識を向上させる。この翻訳では以下の点に注意しました:1. 内容准确:専門用語や技術概念(例:「手術AI」「三つ組」「深層学習モデル」など)は正確に翻訳され、「Rendezvous in Time (RiT)」や「CholecT45」のような固有名詞もそのまま使用しています。2. 表达流畅:日本語表現習慣に合わせて文章構造や語順を調整し、自然な読みやすさを目指しました。3. 表述正式:正式かつ客観的な科技・学術文書スタイルを使用し、口語表現は避けました。4. 忠于原文:原文との内容の一貫性を保ちつつ、日本語読者にとってより理解しやすいように文章構造を最適化しました。