マルチモーダル(multimodal)とは
マルチモーダル (multimodal)は、複数の手段を組み合わせることを意味する。複数の手段を組み合わせることで、より高度な制御が実現可能になる。
ロボット以外にもAIの分野でも用いられ、近年では「マルチモーダルAI」の研究が活発化している。
日常生活におけるマルチモーダル
マルチモーダルは日常生活にも溢れている。
例えば、人間の場合は「視覚、聴覚、触覚」などの感覚情報を得ることが出来るが、これらの中から複数の感覚情報を組み合わせることで、より正確で豊かな情報を得ることが出来る。
具体例としては、以下のようなものが存在する。
- 視覚と聴覚
- 無音の映像作品よりも、映像+音声の作品の方がストーリが理解しやすく、感情移入しやすくなる
- 視覚と触覚
- 物体を触る前に、物体を目で見ることでその物体の質感を予測することが出来る
- 嗅覚と味覚
- 美味しそうな匂いを嗅いだうえで、食べ物を食べることでよりおいしく感じる
ロボットにおけるマルチモーダル
ロボットも人間と同じように、「カメラ(視覚)、マイク(聴覚)、力覚センサ(触覚)」のようなセンサから得られる複数のデータを組み合わせることでより高度な制御が可能になる。
「Kuniaki Noda., et al. “Multimodal integration learning of robot behavior using deep neural networks.”, Robotics and Autonomous Systems, 2014, Vol.62, No.6, p.721-736.」では、「関節角度、カメラ画像、音声データ」を組み合わせたデータを用いて時系列ネットワークによる学習を行うことで、以下のような成果を示した。
- 画像シーケンスから、関節角度シーケンスを推論
- 関節角度シーケンスから、画像シーケンスを推論
- 音声シーケンス+関節角度シーケンスから、画像シーケンスを推論
- 画像シーケンスから、5step先の関節角度を予測
- 画像データシーケンスと関節角度シーケンスを組み合わせることで、ノイズがあるような環境にも頑健な推論が可能に
上記論文の動画