音声検出のむずかしさ
2016年12月12日 (月) 投稿者: メディア技術コース
みなさん、こんにちは、
みなさんは「音声検索」を使ったことはありますか?スマホやタブレットに話しかけて情報検索を行うことです。名称のついた音声検索機能としては、「Siri」とか「しゃべってコンシェル」などが知られています。
みなさんがスマホの話しかけると情報検索が始まりますが、よく考えてみると、話し終わる前に検索を始めたら全然違うことを検索してしまいそうですよね?「音声検索」という言葉を調べようと思っているのに、「音声」とはいったところで、検索処理を始めてしまったら困ります。このような、まとまった音声を検出することは、意外に難しいのです。まず、図1を見てください。横軸は時間で、縦軸は音響振動を表しています。
タネあかしをしましょう。実は図1は「小切手」と話した1つの音声なのです。図2は「ポケット」です!音が切れて見えるのはどうしてでしょう?
「ぱ」、「た」、「か」などの音は、一旦口を閉じないと発声できないのです。このような音声を「破裂音」と言います。口を一旦閉じ、風船を爆発させるようにして音を出すからです。このような音声では、一旦口を閉じたときに音が出なくなりますから、このような音の途切れができます。さらに「コギッテ」や「ポケット」などは小さいツがはいりますね?これは「促音」と呼ばれる音ですが、これらはさらに音が出ない時間が長くなるのです。
図の横軸の数値は秒を表しています。「ポケット」の小さい「ッ」の長さは約0.4秒あることがわかります。なので、音が終わったかどうかを判断するには0.4秒は待たないといけないのです。
マイクには、キーボードを打つ音、ドアが閉まる音、スマホに指やものが触れる音など、いろいろな音が入ってきますが、これらが「音声ではない」と判断する必要もあります。「カタカタ」スマホが何かにぶつかる音が入ったあと「音声検索」を調べようとしたとき、「カタカタ音声検索」を調べ始めたら困ります。
このように、みなさんが何気なく使っている「音声検索」には音声特有の音声検出の方法が工夫されているのです。この音声部分の検出のことをVAD (Voice Activity Detection)と言います。メディア学部の授業の1つであるメディア専門演習「音・音声インタフェース」ではVADのしくみをプログラムで作成する演習を行っています。
相川清明
「研究紹介」カテゴリの記事
- 映像表現・芸術科学フォーラムにて卒研生が優秀発表賞を受賞(2019.03.17)
- 自由な言葉でライブパフォーマンスをアレンジする(2019.03.16)
- 先端メディア学II(2年生)の学生が人工知能学会の研究会で発表(2019.03.15)
- 映像表現・芸術科学フォーラムでの発表(2019.03.10)
- ゲームの学会?!(2019.03.07)
「高校生向け」カテゴリの記事
- チュラロンコン大学からのインターン学生との再会(2019.03.14)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019.03.08)
- ゲームの学会?!(2019.03.07)
- 香港理工大学デザイン学部の紹介(2019.03.04)
- 香港理工大学デザイン学部を訪問し、学部長Lee先生にお会いしました!(2019.03.03)