授業紹介~「音・音声インタフェース」~ボコーダ
2014年12月 9日 (火) 投稿者: メディア技術コース
みなさん、こんにちは、
そのしくみを図解したものが図1です。
図1 線形予測分析による音声合成の原理
一番上が、人の音声が作られるしくみです。喉の奥にある「声帯」は薄い膜2枚からできていて、声を出そうとすると自動ドアのように2枚の膜が両側から出てきて閉まります。次に閉じた声帯が破れるように開いて瞬間的に呼気が流れ出します。これが口の中や鼻を通ってくると声になります。喉から口や鼻までの部分を「声道」と呼んでいます。声帯から出た音はいろいろな周波数成分を含んでいますが、それが、喉から口や鼻を通っていくうちに、周波数成分の取捨選択が行われて声になります。
二段目にある線形予測モデルというのは、音声から予測できるものをすべて抜き出す方法で、予測できないものは、予測誤差と呼ばれます。この予測誤差は瞬間的に声帯から流れ出す呼気に対応します。ですから、音声が作られる手順の逆の手順になっていることがわかります。
線形予測モデルは、音の成分の取捨選択をする一種のフィルタになっているので、逆演算が可能です。これは音声から予測誤差を求めるフィルタの「逆フィルタ」にあたります。図1の三段目をよく見てください。逆フィルタは口や鼻などの声道に対応することがわかります。
ですから、この逆フィルタに声帯から瞬間的に流れ出る音に相当する「パルス」を送り込んであげれば声が作成できるのです。パルスの間隔を変えれば声の高さを変えられるのです。これで音声の合成が可能となりますが、この方法で作られた音は声帯から作られる音の素をパルスで近似していますから、ちょっと機械的な音になります。よく「ロボット音声」と呼ばれます。
ちょっと音を聞いてみましょう。
いかがですか?
相川 清明
「授業紹介」カテゴリの記事
- トップレベルの論文を読み込む「CG技術特論」(大学院授業紹介)(2019.03.13)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019.03.08)
- 専門演習「空間インタラクティブコンテンツ」2018後期(3)(2019.02.22)
- タンジブルインタラクションデザイン最終発表(2019.02.13)
- 専門演習「空間インタラクティブコンテンツ」2018後期(2)(2019.02.12)
「高校生向け」カテゴリの記事
- チュラロンコン大学からのインターン学生との再会(2019.03.14)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019.03.08)
- ゲームの学会?!(2019.03.07)
- 香港理工大学デザイン学部の紹介(2019.03.04)
- 香港理工大学デザイン学部を訪問し、学部長Lee先生にお会いしました!(2019.03.03)