マルチモーダル(multimodal)【複数のデータを組み合わせて高度な制御を実現】

マルチモーダル(multimodal)【複数のデータを組み合わせて高度な制御を実現】

image

マルチモーダル(multimodal)とは

マルチモーダル (multimodal)は、複数の手段を組み合わせることを意味する。複数の手段を組み合わせることで、より高度な制御が実現可能になる。

ロボット以外にもAIの分野でも用いられ、近年では「マルチモーダルAI」の研究が活発化している。

日常生活におけるマルチモーダル

マルチモーダルは日常生活にも溢れている。

例えば、人間の場合は「視覚、聴覚、触覚」などの感覚情報を得ることが出来るが、これらの中から複数の感覚情報を組み合わせることで、より正確で豊かな情報を得ることが出来る。

具体例としては、以下のようなものが存在する。

  • 視覚と聴覚
    • 無音の映像作品よりも、映像+音声の作品の方がストーリが理解しやすく、感情移入しやすくなる
  • 視覚と触覚
    • 物体を触る前に、物体を目で見ることでその物体の質感を予測することが出来る
  • 嗅覚と味覚
    • 美味しそうな匂いを嗅いだうえで、食べ物を食べることでよりおいしく感じる

ロボットにおけるマルチモーダル

ロボットも人間と同じように、「カメラ(視覚)、マイク(聴覚)、力覚センサ(触覚)」のようなセンサから得られる複数のデータを組み合わせることでより高度な制御が可能になる。

Kuniaki Noda., et al. “Multimodal integration learning of robot behavior using deep neural networks.”, Robotics and Autonomous Systems, 2014, Vol.62, No.6, p.721-736.」では、「関節角度、カメラ画像、音声データ」を組み合わせたデータを用いて時系列ネットワークによる学習を行うことで、以下のような成果を示した。

  • 画像シーケンスから、関節角度シーケンスを推論
  • 関節角度シーケンスから、画像シーケンスを推論
  • 音声シーケンス+関節角度シーケンスから、画像シーケンスを推論
  • 画像シーケンスから、5step先の関節角度を予測
  • 画像データシーケンスと関節角度シーケンスを組み合わせることで、ノイズがあるような環境にも頑健な推論が可能に

上記論文の動画