Search for a command to run...
ご提示いただいたタイトルは、学術論文のタイトルとして非常に重要ですので、その文脈(AI・コンピュータビジョン分野のトップ会議やジャーナル)にふさわしい、格調高く正確な表現をご提案します。 翻訳結果は以下の通りです: 数字が語る時:Text-to-Video Diffusion Modelsにおけるテキスト内の数字表記と視覚的インスタンスの整合
【翻訳の解説(学術的観点から)】
When Numbers Speak: 文学的な表現ですが、論文のタイトルとしては「数字が語る時」あるいは「数字の意味するもの」といったニュアンスを含ませるのが一般的です。 Aligning: 機械学習の文脈では「整合(整合性を取る)」「アラインメント」と訳されます。ここでは、テキストと画像(動画)の内容を一致させることを指すため、「整合」という言葉を用いて学術的な響きを持たせています。 Textual Numerals and Visual Instances: 「Textual Numerals」はテキストに含まれる数字の表記(例:「3」や「three」)を指し、「Visual Instances」は動画内に現れる実際の物体(インスタンス)を指します。これらを「テキスト内の数字表記と視覚的インスタンス」と訳すことで、研究の対象を明確にしています。 Text-to-Video Diffusion Models: 指示通り、専門用語であるためそのまま英語で保持しています。