Command Palette
Search for a command to run...

要約
近年、画像編集技術は顕著な進展を遂げている。現代の編集モデルは、既存のコンテンツに対して複雑な指示に従って操作を行うことが可能である。しかし、編集指示の達成以上に、生成結果の物理的現実性——すなわち、物理的効果の再現——が、リアルな画像生成の鍵を握っている。たとえば、物体を削除する際には、その影や反射、周囲の物体との相互作用も同時に除去されるべきである。残念なことに、従来のモデルやベンチマークは、主に指示の達成度に注目しているが、こうした物理的効果の再現には十分な配慮がなされていない。では、現在の技術は物理的現実性の再現にどの程度近づいているのだろうか?この問いに答えるため、本研究では、一般的な編集操作(追加、削除、属性変更など)を対象に、光学、力学、状態遷移の8つのサブ次元にわたり、物理的現実性を体系的に評価するPICABenchを提案する。さらに、個別ケースごと、領域レベルでの人間のアノテーションと質問を用い、VLM(視覚言語モデル)を審査者として活用する信頼性の高い評価プロトコル、PICAEvalを提案する。ベンチマークの構築に加え、動画から物理法則を学習する有効なアプローチを検討し、訓練用データセットPICA-100Kを構築した。主流の多数のモデルを評価した結果、物理的現実性の再現は依然として大きな課題であり、未だ広範な研究の余地が残っていることが明らかになった。本研究で提示するベンチマークと解決策が、単なるコンテンツ編集から物理的に一貫した現実性を実現する方向へと進む今後の研究の基盤となることを期待する。