« 「プロジェクト演習」で特別講義を開催しました | トップページ | 香港城市大学との留学生受け入れが来年4月より始まる! »

音声検出のむずかしさ

2016年12月12日 (月) 投稿者: メディア技術コース

みなさん、こんにちは、

 
みなさんは「音声検索」を使ったことはありますか?スマホやタブレットに話しかけて情報検索を行うことです。名称のついた音声検索機能としては、「Siri」とか「しゃべってコンシェル」などが知られています。
みなさんがスマホの話しかけると情報検索が始まりますが、よく考えてみると、話し終わる前に検索を始めたら全然違うことを検索してしまいそうですよね?「音声検索」という言葉を調べようと思っているのに、「音声」とはいったところで、検索処理を始めてしまったら困ります。このような、まとまった音声を検出することは、意外に難しいのです。まず、図1を見てください。横軸は時間で、縦軸は音響振動を表しています。

Kogi2

                    図1 音声1

 

さて、音声のまとまりはいくつありますか?

長めの音声が話された後、しばらくして、短い音声が話されたように見えますね?2つ単語が話されたのでしょうか?それでは、次の図2はどうでしょうか?

Poke2

                    図2 音声2

 

これでは、3回音声が話されたように見えますね?3回目の音声はしばらくして話されたようにも見えます。

 

タネあかしをしましょう。実は図1は「小切手」と話した1つの音声なのです。図2は「ポケット」です!音が切れて見えるのはどうしてでしょう?

「ぱ」、「た」、「か」などの音は、一旦口を閉じないと発声できないのです。このような音声を「破裂音」と言います。口を一旦閉じ、風船を爆発させるようにして音を出すからです。このような音声では、一旦口を閉じたときに音が出なくなりますから、このような音の途切れができます。さらに「コギッテ」や「ポケット」などは小さいツがはいりますね?これは「促音」と呼ばれる音ですが、これらはさらに音が出ない時間が長くなるのです。
図の横軸の数値は秒を表しています。「ポケット」の小さい「ッ」の長さは約0.4秒あることがわかります。なので、音が終わったかどうかを判断するには0.4秒は待たないといけないのです。
マイクには、キーボードを打つ音、ドアが閉まる音、スマホに指やものが触れる音など、いろいろな音が入ってきますが、これらが「音声ではない」と判断する必要もあります。「カタカタ」スマホが何かにぶつかる音が入ったあと「音声検索」を調べようとしたとき、「カタカタ音声検索」を調べ始めたら困ります。
このように、みなさんが何気なく使っている「音声検索」には音声特有の音声検出の方法が工夫されているのです。この音声部分の検出のことをVAD (Voice Activity Detection)と言います。メディア学部の授業の1つであるメディア専門演習「音・音声インタフェース」ではVADのしくみをプログラムで作成する演習を行っています。
 
相川清明

研究紹介」カテゴリの記事

高校生向け」カテゴリの記事

« 「プロジェクト演習」で特別講義を開催しました | トップページ | 香港城市大学との留学生受け入れが来年4月より始まる! »