マルチモーダル(multimodal)【複数のデータを組み合わせて高度な制御を実現】

マルチモーダル(multimodal)【複数のデータを組み合わせて高度な制御を実現】

マルチモーダル(multimodal)とは

マルチモーダル (multimodal)は、複数の手段を組み合わせることを意味する。複数の手段を組み合わせることで、より高度な制御が実現可能になる。

ロボット以外にもAIの分野でも用いられ、近年では「マルチモーダルAI」の研究が活発化している。

日常生活におけるマルチモーダル

マルチモーダルは日常生活にも溢れている。

例えば、人間の場合は「視覚、聴覚、触覚」などの感覚情報を得ることが出来るが、これらの中から複数の感覚情報を組み合わせることで、より正確で豊かな情報を得ることが出来る。

具体例としては、以下のようなものが存在する。

視覚と聴覚

無音の映像作品よりも、映像＋音声の作品の方がストーリが理解しやすく、感情移入しやすくなる

視覚と触覚

物体を触る前に、物体を目で見ることでその物体の質感を予測することが出来る

嗅覚と味覚

美味しそうな匂いを嗅いだうえで、食べ物を食べることでよりおいしく感じる

ロボットにおけるマルチモーダル

ロボットも人間と同じように、「カメラ（視覚）、マイク（聴覚）、力覚センサ（触覚）」のようなセンサから得られる複数のデータを組み合わせることでより高度な制御が可能になる。

「Kuniaki Noda., et al. “Multimodal integration learning of robot behavior using deep neural networks.”, Robotics and Autonomous Systems, 2014, Vol.62, No.6, p.721-736.」では、「関節角度、カメラ画像、音声データ」を組み合わせたデータを用いて時系列ネットワークによる学習を行うことで、以下のような成果を示した。

画像シーケンスから、関節角度シーケンスを推論
関節角度シーケンスから、画像シーケンスを推論
音声シーケンス+関節角度シーケンスから、画像シーケンスを推論
画像シーケンスから、5step先の関節角度を予測
画像データシーケンスと関節角度シーケンスを組み合わせることで、ノイズがあるような環境にも頑健な推論が可能に

上記論文の動画