おしゃべりAI~音声合成の潮流~(1)
2019年10月 4日 (金) 投稿者: メディア技術コース
こんにちは。最近はスマートフォンやスマートスピーカーなどで話し声を作り出して再生する「音声合成」技術の利用が広がっていますね。今回は最近の音声合成技術について、連載形式でお話します。
音声合成は、任意の文章(テキスト)を音声に変換することです。今日に実用化されている音声合成は、ゼロから音声の波形(音圧の時々刻々の変化)を作り出すのではなく、誰かの声の録音を材料として使って行います。2000年代初めまで主流だったのは、
- 音声波形を短く切ってつなぎ合わせるもの(波形接続)
- 一度パラメータに変換してからパラメータの系列を生成するもの(例えば隠れマルコフモデルを使った方法)
/k a/の合成のようす
でした。後者は、上図のように、ある確率でいろんな音ののパラメータを発生(出力)する「状態」(図のマルのところ)の系列を仮定して、出したい音に対応したパラメータを出力させていきます。
近年は、いわいるAIの技術のひとつであるディープラーニング(深層学習)が活用されています。ここで、簡単にディープラーニングを用いたニューラルネットを説明します。ニューラルネットは、神経の活動を模した学習モデルです。
神経細胞(ニューロン)同士が互いに結合して構成されています。基本的なモデルでは、ひとつひとつに何本かの入力(図では頭から延びる枝)と枝分かれしている出力(顔の下から延びる枝)の経路が付いています。
入力からは何らかの数値が入ってきます。この合計が小さいと出力がほとんど出ず(ここでは0)、ある値より大きいと「発火」して一気に大きな出力が(ここでは1)出ます。
出力された値には、次のニューロンに届くまでに「重み」と呼ばれる係数が掛け算されます。例えば、1に重み2.1をかけると値は2.1になりますね。全ての枝で重みが掛け算された後で次のニューロンの入力に入り、そこでまた合計が大きい場合に次の発火が起こります。
では、どうやってAIは「学習」されるのでしょうか。教師あり学習といわれる学習では、テキストから取り出した情報(発音やアクセントなど)と実際誰かが発声した音声(=正解の情報)を使います。このデータの組を使ってAIにテキスト情報を入力したときの仮の出力と、実際の音声のデータとの差を計算すると、誤差が求まります。この誤差が小さくなっていくようにニューロンの枝の「重み」を微調整していく作業がニューラルネットの「学習」です。
次回は上記を使った音声合成技術の広がりについてお話しします。
メディア技術コース 越智
「卒業生向け」カテゴリの記事
- あにめたまご2019「文化庁若手アニメータ等人材育成事業」(2019.03.12)
- 学会紹介:ADADA Japan学術大会と情報処理学会EC2019(2019.03.09)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019.03.08)
- 香港理工大学デザイン学部を訪問し、学部長Lee先生にお会いしました!(2019.03.03)
- メディア学部の提携校である香港城市大学への訪問(2019.02.27)
「在学生向け」カテゴリの記事
- チュラロンコン大学からのインターン学生との再会(2019.03.14)
- あにめたまご2019「文化庁若手アニメータ等人材育成事業」(2019.03.12)
- タイの提携校、キンモンクット大学トンブリに短期訪問しませんか?(2019.03.11)
- 学会紹介:ADADA Japan学術大会と情報処理学会EC2019(2019.03.09)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019.03.08)
「高校生向け」カテゴリの記事
- チュラロンコン大学からのインターン学生との再会(2019.03.14)
- 大学院授業:プロシージャルアニメーション特論の紹介(2019.03.08)
- ゲームの学会?!(2019.03.07)
- 香港理工大学デザイン学部の紹介(2019.03.04)
- 香港理工大学デザイン学部を訪問し、学部長Lee先生にお会いしました!(2019.03.03)
「おもしろメディア学」カテゴリの記事
- 【研究紹介】お城を数値で作り上げる!:日本城郭のプロシージャルモデリング(2019.01.22)
- 【研究紹介】プロジェクションマッピングはエンタメだけじゃない!プロジェクションマッピングによる動作支援(2019.01.15)
- 高大連携企画・映像制作ワークショップを開催しました(2019.01.14)
- 【再掲】世にも恐ろしい本当にあった話...(からぁ~の,エール!)(2019.01.09)
- 【研究紹介】”匂い”で季節感を感じさせることはできるか?(2019.01.06)