« おもしろメディア学 第57話 CG・ゲーム業界の年に1度のお祭りで自分の作品を展示しよう! | トップページ | おもしろメディア学 第58話 CGでは三角形も円も同じです。(授業紹介:CG制作の基礎) »

授業紹介~「音・音声インタフェース」~ボコーダ

2014年12月 9日 (火) 投稿者: メディア技術コース

みなさん、こんにちは、

 
今日は、「音・音声インタフェース」という演習授業の中の1コマをご紹介しましょう。「音・音声インタフェース」は20種類ほどもある「メディア専門演習」のうちの1つです。コンピュータで音を取り扱う技術を学ぶ演習で、Matlabというソフトを使って、楽器音を合成するシンセサイザを作ったり、簡単な音声対話システムを作ったりします。
その中の1コマにボコーダの作成があります。楽器音シンセサイザでは楽器音を作成しますが、ボコーダは人の声を合成するものです。声の高さは自由に作れますから、人の声でメロディを演奏することもできます。
「音・音声インタフェース」という演習では、 ボコーダを「線形予測分析」の原理を使って作成します。
 
さて、「線形予測分析」とはどんな原理なのでしょうか?
 

そのしくみを図解したものが図1です。

Photo

                    図1 線形予測分析による音声合成の原理

 

一番上が、人の音声が作られるしくみです。喉の奥にある「声帯」は薄い膜2枚からできていて、声を出そうとすると自動ドアのように2枚の膜が両側から出てきて閉まります。次に閉じた声帯が破れるように開いて瞬間的に呼気が流れ出します。これが口の中や鼻を通ってくると声になります。喉から口や鼻までの部分を「声道」と呼んでいます。声帯から出た音はいろいろな周波数成分を含んでいますが、それが、喉から口や鼻を通っていくうちに、周波数成分の取捨選択が行われて声になります。

二段目にある線形予測モデルというのは、音声から予測できるものをすべて抜き出す方法で、予測できないものは、予測誤差と呼ばれます。この予測誤差は瞬間的に声帯から流れ出す呼気に対応します。ですから、音声が作られる手順の逆の手順になっていることがわかります。

線形予測モデルは、音の成分の取捨選択をする一種のフィルタになっているので、逆演算が可能です。これは音声から予測誤差を求めるフィルタの「逆フィルタ」にあたります。図1の三段目をよく見てください。逆フィルタは口や鼻などの声道に対応することがわかります。

ですから、この逆フィルタに声帯から瞬間的に流れ出る音に相当する「パルス」を送り込んであげれば声が作成できるのです。パルスの間隔を変えれば声の高さを変えられるのです。これで音声の合成が可能となりますが、この方法で作られた音は声帯から作られる音の素をパルスで近似していますから、ちょっと機械的な音になります。よく「ロボット音声」と呼ばれます。

ちょっと音を聞いてみましょう。

ボコーダの音

いかがですか?

 

相川 清明

授業紹介」カテゴリの記事

高校生向け」カテゴリの記事

« おもしろメディア学 第57話 CG・ゲーム業界の年に1度のお祭りで自分の作品を展示しよう! | トップページ | おもしろメディア学 第58話 CGでは三角形も円も同じです。(授業紹介:CG制作の基礎) »