« 学会発表(映像表現・芸術科学フォーラム 2021) | トップページ | オンラインポスターセッションシステムの公開 »

学会発表報告

2021年3月13日 (土) 投稿者: メディア技術コース

メディア学部の寺澤です。

3月9日から12日まで電子情報通信学会総合大会が開催されました。今回は全面オンラインでの開催となりました。私の研究室の修士課程1年の北村亮太君が9日にポスター発表を行いましたので、報告します。学会の情報・システムソサイエティの学生ポスターセッションで「3DCNN発話分類モデルにおける日本語単語読唇への発話形態の影響」というタイトルで発表いたしました。オンラインでポスター発表というのは様々な方法があるようですが、今回はZoomを使ってブレイクアウトセッションで行うということ以外は形式の指定が緩く、スライドを使った発表となりました。

202103091

北村君の研究は「読唇」という、人が何を話しているのかを音声で聞くのではなく口の動きで読み取る、ということを深層学習を用いた画像認識で行おうという研究です。最近ではスマートフォンに自分の声で音声メモをしたり、iPhoneのSiriやAndoroidスマホのGoogleアシスタントなどの機能で音声で指示や操作ができるようになっています。しかし、周囲がうるさかったり、あるいは逆に静かで声を出せる状況や場所ではないときなどは音声に頼ることはできません。それに代わって、いわゆる口パクでも画像で認識できないか、あるいは音として聞き取れなくても口の動きで言っていることを認識できないかというのがやりたいことです。深層学習の精度を高めるには大量のデータが必要です。しかし、既存の研究用データセットや、動画サイトなどにある映像はほとんど有声のものですから、それらを使って研究を進めることができるのか、あるいは自前でデータを大量に用意する必要があるのかをまず確認することが必要でした。

彼は学部4年生の時から修士課程の2年間と合わせた3年計画でこの研究に取り組んでおり、卒業研究では、最初の段階として、声を出して話しているときと声を出さない時では違いがあるのかということの確認を行いました。具体的には、有声、ささやき声、無声(口パク)の3種類の「発話形態」で被験者に数種類の単語を繰り返し発話してもらい、それを録画したものを使って深層学習を行います。有声データだけで学習したモデル、ささやき声だけで学習したモデル、無声だけで学習したモデルの3種類を作り、それに対し、評価データとしてやはりこの3種類の発話形態のデータを与えます。海外での日本語ではない先行研究では、この時、モデルと評価データの発話形態が一致しているときの認識精度が最も高いという結果が出ています。日本語ではこの確認は行われていなかったので、まずそれを行いました。卒業研究の時は3種類の単語を数名の学生に発音してもらったデータで挑戦しましたが、データ数が少なすぎるせいか、結果に対して明確な結論を出すことが困難でした。そこで修士課程に入学してからも単語の種類や被験者を増やし、試行錯誤しながら進めてきた結果を今回発表しました。今回もデータは自前で用意しているため、十分に大量のデータというわけにはいきませんでした。その影響もありますが、結果に影響を与えるいくつかのポイントを見出すことができました。

今回発表した範囲以外にも並行して他の手法で進めていることもあり、成果がまとまりつつあります。これらをいったん論文誌に投稿する予定です。そのうえで、彼の本来の修士論文の目標である、文レベルでの読唇認識手法の研究に重心を移していきたいと考えています。

(メディア学部 寺澤卓也)

在学生向け」カテゴリの記事

研究紹介」カテゴリの記事

高校生向け」カテゴリの記事

« 学会発表(映像表現・芸術科学フォーラム 2021) | トップページ | オンラインポスターセッションシステムの公開 »