« 意外と知られていないサイネージの裏話 | トップページ | 卒業研究「プロダクトデザイン」の発表用ポスター その5 »

うるさいところで声を聞き取る

2015年6月11日 (木) 投稿者: メディア技術コース

こんにちは。4月から新任の大淵です。
さっそくですが、みなさんは音声認識を使ったことがありますか?
スマートフォンに向かって「日本のマチュピチュ」などと言うと、その言葉を聞き取って自動的に検索してくれたりするものです。スマートフォンだけではなく、カーナビゲーションとか、電話自動応答サービスなどでも実用化されています。
私はずっとこの音声認識の研究をしてきました。音声認識というのは、ものすごく沢山の個別技術の集積です。声の基本単位である音素をモデル化する人、単語や文章をモデル化する人、入ってきた音を瞬時に数万単語と照合する高速アルゴリズムを作る人、などなど、決して一人の天才だけで作りうるものではなく、大勢の研究者の地道な研究の積み重ねによって、現在の実用に足るだけの性能が得られるようになりました。
その中で、私が特に深く関わってきたのは、うるさいところでどうやって声を認識するか、というテーマです。みなさんも、駅や繁華街などのうるさいところにいる人と電話で話していると、相手の言うことがとても聞き取りにくいことがありませんか?うるさいところが苦手なのは機械も同じで、例えばカーナビ用の音声認識システムで、停車中の正解率は95%なのに、高速道路走行中は50%なんていうことがよくあります。こういう性能劣化を避けるためには、うるさいところで取り込んだ音を、目的音声と雑音とに分離し、目的音声だけを音声認識にかけてやればいいですよね。下の図は、私が開発したアルゴリズムを用いて、雑音混じりの音声のデータから、音声だけを取り出した様子です。(左が雑音まじり、右が音声だけ取り出したもの)
 

Spectrogram_2

さて、実際にはどんな音なのか、聞いてみて下さい。
ところで、先ほどは電話の例を挙げましたが、人間同士が直接対面して話をするときには、けっこううるさくても相手の言うことが聞き取れてしまいます。それは、人間が二つの耳を効果的に使っていたり、相手の顔の動きを補助情報として用いていたりするためです。そういうテクニックを機械にも真似させようというのも、とても面白い研究テーマなのですが、それについてはまた別の機会に説明することにしましょう。

研究紹介」カテゴリの記事

« 意外と知られていないサイネージの裏話 | トップページ | 卒業研究「プロダクトデザイン」の発表用ポスター その5 »