« 学会発表 | トップページ | 先輩による企業紹介 »

Speech-to-Gesture Generation: A Challenge in Deep Learning Approach with Bi-Directional LSTM

2017年12月 2日 (土) 投稿者: メディア社会コース

メディア社会コースの長谷川です。
今回は、10月にドイツで行われた 5th International Conference on Human Agent Interaction (HAI2017) にて発表した研究成果について紹介します。
百聞は一見に如かず、ですので早速ですが、まずデモをご覧ください。

https://www.youtube.com/watch?v=MAs4iKGToBU&feature=youtu.be

この研究では音声データを入力として、その音声にあわせたジェスチャを生成する試みを行っています。デモの中にある、「#1 ORIGINAL」は、実際に人間が発話と一緒におこなったジェスチャです。「#2 MISMATCHED」は、これも人間が実際におこなったジェスチャですが別の発話と一緒におこなったものを表示しています。最後に「#3 PREDICTED」が、音声データから自動生成されたジェスチャです。

まだ全然上手くいってないと思われるかもしれませんが、ジェスチャの生成は、実は自然言語の生成と密接に関わっている非常に難しいタスクですので、長い目で見る必要があります。ただし、ジェスチャは自然言語よりは抽象度が高いため、すこし難易度は低いのではないかと考えています。

さて、ではどのように音声データからこのような動作を生成することができるのでしょうか?
色々な方法が考えられますが、我々はニューラルネットワークを利用しています。

ニューラルネットワークは、近年ディープラーニングで再注目されており、様々な分野で既存の手法を超える成果を上げています。その一つに音声認識があり、我々は、音素(言語的な特徴)の認識ができるならジェスチャ(言語的な特徴と密接に関わるもの)の生成もある程度できるようになるのでは?という比較的安易な考えからこの研究をスタートしました。もちろん、そこには大きな飛躍があるのですが、一つのチャレンジだと思っています。

研究紹介」カテゴリの記事

« 学会発表 | トップページ | 先輩による企業紹介 »