« 7/16オープンキャンパスにて、来場者参加型の模擬授業を行います | トップページ | 7月16日オープンキャンパスで音・声で遊ぶ展示をします »

声の高さを測る

2017年7月11日 (火) 投稿者: メディア技術コース

みなさん、こんにちは、

 
みなさんはカラオケ好きですか?カラオケに行くと機械が歌のうまさを採点してくれます。うたのうまさの中では、まず、メロディの音の高さがちゃんと歌えていないといけません。ということは、カラオケ採点機は声の高さを測る仕組みがあるということです。
メディア学部の特徴的な演習である「メディア専門演習」の1つ「音・音声インタフェース」第11回目は「ピッチ抽出」で、簡単なカラオケ採点機を作りました。ピッチとは声の高さの周波数のことです。ここで使った声の高さを測る方法はケプストラム法というものです。
母音「あ」の周波数分布であるスペクトルを見てみると、図1のようになっています。

Photo

                    図1 母音「あ」のスペクトル

 

細かいギザギザは倍音と言って、声の高さのピッチ周波数に関係があり、ピッチ周波数の整数倍の周波数に規則正しく並んでいるのです。この図では1000Hzまでで細かいギザギザは10個ほどありますので、ピッチ周波数はだいたい100Hzです。

 

このギザギザが規則正しく並んでいるとすると、図1で周波数分析ができそうです。図1の横軸は周波数ですから、通常の周波数分析とはちょっと異なります。周波数軸上でのスペクトル分析をケプストラムと言います。図1の横軸の最大値は6000Hzです。ディジタル音のサンプルが1秒にいくつあるかをサンプリング周波数と呼びますが、この最高周波数はサンプリング周波数の半分です。この図1の音声はサンプリング周波数は12000Hzだったということです。

さて、図1に含まれるさまざまな振動成分のうち、最大のものがピッチ周波数に関係した細かいギザギザになります。次の図は最高周波数のなかに8個波がはいったもので、ピッチ周波数はサンプリング周波数の2分の1の8分の1、つまり、サンプリング周波数の16分の1ということになります。
専門的に言うと、マイナスの最高周波数からプラスの最高周波数までの幅はサンプリング周波数に相当しますが、そのなかに波は16個入っているのです。

16_2

                    図2 ケプストラム法によるピッチ周波数算出

 

さて、最大のケプストラムを調べると16次が最大になっています。ということは、最大ケプストラムの次数でサンプリング周波数を割ってあげれば、声の高さの周波数が求まるということになります。「音・音声インタフェース」では、音の出る鍵盤と算出した声のピッチ周波数を表示できるように作り、自分の発声の高さがただしかったかどうか判定できるようにしました。

 

相川 清明

在学生向け」カテゴリの記事

授業紹介」カテゴリの記事

高校生向け」カテゴリの記事

« 7/16オープンキャンパスにて、来場者参加型の模擬授業を行います | トップページ | 7月16日オープンキャンパスで音・声で遊ぶ展示をします »