音声検出のむずかしさ
| 固定リンク
みなさん、こんにちは、
みなさんは「音声検索」を使ったことはありますか?スマホやタブレットに話しかけて情報検索を行うことです。名称のついた音声検索機能としては、「Siri」とか「しゃべってコンシェル」などが知られています。
みなさんがスマホの話しかけると情報検索が始まりますが、よく考えてみると、話し終わる前に検索を始めたら全然違うことを検索してしまいそうですよね?「音声検索」という言葉を調べようと思っているのに、「音声」とはいったところで、検索処理を始めてしまったら困ります。このような、まとまった音声を検出することは、意外に難しいのです。まず、図1を見てください。横軸は時間で、縦軸は音響振動を表しています。
タネあかしをしましょう。実は図1は「小切手」と話した1つの音声なのです。図2は「ポケット」です!音が切れて見えるのはどうしてでしょう?
「ぱ」、「た」、「か」などの音は、一旦口を閉じないと発声できないのです。このような音声を「破裂音」と言います。口を一旦閉じ、風船を爆発させるようにして音を出すからです。このような音声では、一旦口を閉じたときに音が出なくなりますから、このような音の途切れができます。さらに「コギッテ」や「ポケット」などは小さいツがはいりますね?これは「促音」と呼ばれる音ですが、これらはさらに音が出ない時間が長くなるのです。
図の横軸の数値は秒を表しています。「ポケット」の小さい「ッ」の長さは約0.4秒あることがわかります。なので、音が終わったかどうかを判断するには0.4秒は待たないといけないのです。
マイクには、キーボードを打つ音、ドアが閉まる音、スマホに指やものが触れる音など、いろいろな音が入ってきますが、これらが「音声ではない」と判断する必要もあります。「カタカタ」スマホが何かにぶつかる音が入ったあと「音声検索」を調べようとしたとき、「カタカタ音声検索」を調べ始めたら困ります。
このように、みなさんが何気なく使っている「音声検索」には音声特有の音声検出の方法が工夫されているのです。この音声部分の検出のことをVAD (Voice Activity Detection)と言います。メディア学部の授業の1つであるメディア専門演習「音・音声インタフェース」ではVADのしくみをプログラムで作成する演習を行っています。
相川清明
「研究紹介」カテゴリの記事
- 2017年度社会系学会報告(3):進化経済学会全国大会(2018.04.11)
- 2017年度社会系学会報告(2):ビジネス科学学会九州支部会(2018.04.10)
- 2017年度社会系学会報告(1):情報文化学会九州支部会(2018.04.09)
- 学会発表:「ゲームをやめることで継続する」研究(2018.04.08)
- 2017年度卒研「経済経営調査研究」ゼミ生対外活動成果(2018.04.01)
「高校生向け」カテゴリの記事
- 2018年3月卒業の「プロダクトデザイン」の皆さんを紹介します(その1)(2018.04.18)
- インドネシア弾丸旅行2018(その6)ジャカルタの提携校マルチメディア大学(UMN)訪問(2018.04.07)
- インドネシア弾丸旅行2018(その5)Semarangの提携校UDINUSにおける講義(2018.04.06)
- インドネシア弾丸旅行2018(その4) University of AMIKOM Yogyakartaの施設紹介と産学連携(2018.04.03)
- 集中実技 I (スキー)体験レポート!(2018.04.02)