オレゴン州立大学の学者たちは、ロボットがどのようにしてユーモアのセンスを養い、スタンドアップコメディをより上手に演じることを学ぶことができるかを研究している。この目的を達成するために、チームはトークショーロボットのジョンを使って数十回のパフォーマンスを行い、成功のためのヒントをいくつかまとめました。
私たちの従来の印象では、ロボットの多くは冷たい金属の質感を持っています。Siri のような音声アシスタントでさえ、物理的なイメージはありませんが、冷たい声でロボットの気質を伝えます。
という諺がありますが、「人間とコンピューターの対話が人間のコミュニケーションと同じくらい自然になったとき、真のインテリジェンスの時代が到来するでしょう。」
人間とコンピューターの相互作用に向けて、科学者やエンジニアは熱心に取り組んでおり、ロボットや AI が人間とより仲良くやっていくためにユーモアのセンスを獲得できるようになることを望んでいます。結局のところ、ユーモアのセンスは人間の最も貴重な特性の 1 つです。 。
たとえば、Siri と Microsoft XiaoIce は皆、良い (長い) ジョークを言えるように一生懸命取り組んでいます。
ロボットや音声アシスタントAIにユーモアのセンスを持たせるのは容易ではなく、この分野では究極の課題とさえ考えられている。
(AI がユーモアのセンスを持つという問題については以前に議論しました。参照「人工知能にユーモアを学習させて、人間と機械の会話が気まずくならないようにしましょう」。 )
2019年5月、トークショー「ソードマン」のステージに「タイタン」と呼ばれるロボットが登場した。面白いと主張し、頻繁にジョークを飛ばして聴衆を笑わせました。
しかし、「タイタン」のあまりにも現実的なアクションと言葉のやりとりは、視聴者の間に疑問を引き起こした。後に、それは確かに単なるロボットの殻であり、その動きとパフォーマンスを制御するために生身の人間が内部に隠れていることが確認されました。
ソーシャル ロボットの開発以来、その対話性と人間の感情の理解は常に非常に困難でした。たとえば、「タイタン」には、番組のニーズを満たすための要素が含まれている可能性があります。このような自由に伸縮でき、ジョークを理解する能力に優れたロボットは、現実にはまだ実現できません。
オレゴン州立大学には、2011 年から人間とコンピューターのインタラクションとロボットのユーモアに取り組んでいる研究チームがあります。この問題を解決し、ソーシャル ロボットがユーモアを利用して人々をより惹きつけ、より人間に近づくようにするために、ロボット工学のナオミ フィッター助教授は、まずトーク ショー ロボットを構築することを計画しています。
チームはまず、開発したトークショーパフォーマンスプログラムを実行するためのキャリアおよびパフォーマーとして、ソフトバンクロボティクスが開発したNAOロボットを選択しました。
ナオミ・フィッターはこれまで、トークショーロボットのジョンとともに32回の西海岸ツアーを行ってきた。ロボットがどのようにして人間のユーモアを徐々に理解し学習していくのかを発見しました。
トークショーは一般的に「冒頭の挨拶~荷物を降ろす」という流れで構成されていると思いますが、ジョークの内容に加えて、ジョークを話すスピードや、冒頭の挨拶からバッグを振るまでの休止時間も、スタンドアップ パフォーマンスでは重要です。
なぜなら、現在の研究の方向性は、ジョークを自動的に生成するのではなく、ロボットと人間の間のユーモラスなインタラクションをより自然なものにすることだからです。そのため、研究者らはトークショーの一般的なルーチンに従い、ジョンのロボットに適したパフォーマンス資料を事前に作成しました。
この内容はロボットの視点から語られ、人間関係、日常生活、政治、夢、挫折などのトピックが取り上げられています。
例: 最近、甥っ子に「ロボットはどこから来たの?」と聞かれると、いつも当惑します。ロボットはその母親である配送トラックから来たとしか言えません。
ジョンはラジオを使用してパフォーマンス中の聴衆の反応を判断し、次のジョークを一時停止する必要があるか、トーンを強める必要があるかを決定します。
研究者らは、26 のジョークと 22 の感情ラベルを含む約 8 分間の資料を作成しました。次に、NAO ロボットをパフォーマーとして使用して、コメディ ショー プログラムを実行します。
ロボット・ジョンは、ロサンゼルスエリアとオレゴン州の2つのオープンマイク会場で計32回のパフォーマンスを披露した。
研究 1: ポーズ技術がパフォーマンスに加点する
最初の調査はロサンゼルス地域で実施され、これまでロボットトークショーを見たことのない10~20人の大人を対象に合計22回のパフォーマンスが行われた。
ロボットはそれぞれ 2 つのモードのパフォーマンスを実行しました。
最初のモードはバッドタイミング(悪いタイミング)モードです。: 各ジョークを言った後、次のジョークを始める前に 5 秒待ちます。このモードでは、ロボットは 12 個のジョークを完成させました。
研究チームは、音量と音のカウントに基づく 2 つの方法を使用して、聴衆がまだ笑い、拍手しているかどうかを判断しました。
その後、ロボットには 170 ミリ秒のベースライン待機時間が設定され、この期間中に聴衆が沈黙を保った場合、ロボットは 5 秒のタイムアウトまで待機して次のジョークを開始します。通常は 5 秒で十分であることをお勧めします)
2 番目のモードは適切なタイミング モードです。ロボットは、ライブの聴衆の反応に基づいて、一時停止するか話し続けるかを決定します。聴衆が笑っていれば一時停止し、聴衆が静かになったら続けます。このモードでは、ジョンは 10 個のジョークを完成させました。
この研究では、ロボットコメディアンのパフォーマンスが適切なタイミングで行われている場合、つまり、観客に適切な反応時間などが与えられている場合、ロボットが適切なタイミングを持たずに単独でパフォーマンスを行う場合よりも、はるかに興味深いものになることが示されています。
なぜなら、ジョークが成功すると、観客は笑ったり拍手したりすることが多いですが、ロボットは一定の遅延時間の後に次のジョークを始めるため、観客は次のジョークの一部を見逃してしまい、ジョークが失敗してしまうからです。
第二回学習:話しながら「言葉や表情を観察する」
2 番目の研究は、オレゴン州での 10 回の公演に基づいています。チームは、「適応パフォーマンス」と呼ばれる、パフォーマンスに対する聴衆のさまざまな反応を考慮に入れています。
研究チームはジョーク素材にタグ付きの新しいジョークを追加しました。タグは次のように分かれています。激しく、生ぬるく、そして静か3種類。
ロボットはジョークを言い終わるたびに、聴衆が生み出す笑いのレベルに基づいて、どの「タグ」ジョークを選択するかを選択します。 2 番目の研究では、すべてのパフォーマンスが適切なタイミングで実行されました。
しかし、この研究結果は次のことを示しています。ラベルが貼られているかどうかはパフォーマンスの成功率にほとんど影響しません。
結論: 適切なタイミングで荷物を振り払えば、高い確率で成功します。
上記の研究に基づいて、フィッター氏は次のように結論付けました。「バッドタイミングモードでは、ロボットは聴衆の反応に関係なく、各ジョークの後常に 5 秒間待機していました。
アダプティブ タイミング モードでは、人間の優れたコメディアンと同じように、ロボットはタイミング戦略を使用して、笑いが起こると一時停止し、笑いが静まると再開します。
したがって、全体的には、ジョークが適切なタイミングで語られると、聴衆の反応率が高くなります。Jon はすでにこのテクニックに比較的慣れています。
フィッター氏は、32回のパフォーマンスにより、ロボットトークショーのさまざまなモード間の大きな違いを判断するのに十分なデータが研究チームに提供されたと述べた。そして、このデータは、「自律型ソーシャルロボットがユーモア能力を向上させる」のに役立つ可能性がある。
同時に、この研究は、コメディーの社会的相互作用に関する重要な質問に対するいくつかの答えを提供するのにも役立ちます。ロボット工学やAIの分野の研究者に役立ちます。現実世界の設定で人間の集団が面白いソーシャル ロボットにどのように反応するかを理解することは、コメディアンがジョークやルーティンの成功を評価するのにも役立ちます。
たとえば、次のパフォーマンスの前に、Li Dan と Chizi はロボットにリハーサルを手伝ってもらい、効果が不十分な場合は、時間内に改善することができます。ということは、将来的にはスタンドアップコメディアンはステージでパフォーマンスする必要がなくなり、舞台裏でジョークを書くことに集中できるようになるかもしれない?
ジョンが言った冗談のように:もし私が好きなら、私を予約してください!ジョークを言うだけでなく、あなたの仕事を引き継いでもいいですか?
- 以上 -