« 映像表現・芸術科学フォーラム2017にて3年生が発表します | トップページ | 万座温泉でスキー実習 »

音声の認識に必要な情報はどれくらい?

2017年3月14日 (火) 投稿者: メディア技術コース

みなさん、こんにちは、

 
コンピュータによる音声認識には、高度の信号処理、複雑なプログラムと膨大な記憶装置を必要とします。人間の音声認識性能はそれ以上ですので、脳の中ににはさらに高性能で規模の大きな情報処理システムがあると考えられます。
それでは、次の音声を聞いてください。
 
何と言っていましたか?雑音っぽいですが、「おもしろい」ですよね?
さて、この音声のサウンドスペクトログラムを見てみましょう。

Noise_excited_omoshiroi_fdiv800

               図1 雑音っぽい「おもしろい」のサウンドスペクトログラム

 

サウンドスペクトログラムは、横軸が時間、縦軸が周波数を表し、赤いところが音の成分が強く、青いところが音の成分が弱いことを表しています。横軸の時間は0.8秒程度、縦軸の周波数は人の声を聴き分けるのに十分は5500ヘルツ程度までが表されています。

何か縦方向に7つの段がありますね?

実は、この音声は7つの雑音から出来ているのです!周波数の間隔は800ヘルツで、周波数の情報はなんと7つしかないのです。

 

これは、どうやって作ったかというと

1、音声を800ヘルツの間隔で7つの周波数成分に分ける。
2、各周波数の音声の音量変化を調べる
3、各周波数の雑音を発生させて、音量変化だけは音声と同じにする。
4、その7つの雑音を足し合わせる。
通常「あ」や「い」の周波数成分の情報を表現するには256もの値が必要なのですが、それをわずか7つにまでにしてしまっているのです。
 
それでは、さらにそれを1500ヘルツ間隔にした音声を聞いてみましょう。
 
どうですか?何とか「おもしろい」にきこえますね?スペクトログラムを見るとびっくりです。

Noise_excited_omoshiroi_fdiv1500

               図2 周波数成分が4つしかない音声

 

なんと、周波数方向に4段階しかありません!4種の雑音から出来ているのです。でも「おもしろい」に聞こえてしまう。

人が音声を理解するしくみは不思議で素晴らしいですね。

 

相川 清明

在学生向け」カテゴリの記事

高校生向け」カテゴリの記事

おもしろメディア学」カテゴリの記事

« 映像表現・芸術科学フォーラム2017にて3年生が発表します | トップページ | 万座温泉でスキー実習 »