« 2021年の新しい大学入試に頻出予想の散布図に注目しよう(相関と散布図) | トップページ | デジタル上映の画質 »

おしゃべりAI~音声合成の潮流~(1)

2019年10月 4日 (金) 投稿者: メディア技術コース

こんにちは。最近はスマートフォンやスマートスピーカーなどで話し声を作り出して再生する「音声合成」技術の利用が広がっていますね。今回は最近の音声合成技術について、連載形式でお話します。

音声合成は、任意の文章(テキスト)を音声に変換することです。今日に実用化されている音声合成は、ゼロから音声の波形(音圧の時々刻々の変化)を作り出すのではなく、誰かの声の録音を材料として使って行います。2000年代初めまで主流だったのは、

  1. 音声波形を短く切ってつなぎ合わせるもの(波形接続)
  2. 一度パラメータに変換してからパラメータの系列を生成するもの(例えば隠れマルコフモデルを使った方法)

Blog_hmm002

/k a/の合成のようす

でした。後者は、上図のように、ある確率でいろんな音ののパラメータを発生(出力)する「状態」(図のマルのところ)の系列を仮定して、出したい音に対応したパラメータを出力させていきます。

近年は、いわいるAIの技術のひとつであるディープラーニング(深層学習)が活用されています。ここで、簡単にディープラーニングを用いたニューラルネットを説明します。ニューラルネットは、神経の活動を模した学習モデルです。Neuron

神経細胞(ニューロン)同士が互いに結合して構成されています。基本的なモデルでは、ひとつひとつに何本かの入力(図では頭から延びる枝)と枝分かれしている出力(顔の下から延びる枝)の経路が付いています。

 Activate

入力からは何らかの数値が入ってきます。この合計が小さいと出力がほとんど出ず(ここでは0)、ある値より大きいと「発火」して一気に大きな出力が(ここでは1)出ます。

Weighting

出力された値には、次のニューロンに届くまでに「重み」と呼ばれる係数が掛け算されます。例えば、1に重み2.1をかけると値は2.1になりますね。全ての枝で重みが掛け算された後で次のニューロンの入力に入り、そこでまた合計が大きい場合に次の発火が起こります。

Training_dnn

では、どうやってAIは「学習」されるのでしょうか。教師あり学習といわれる学習では、テキストから取り出した情報(発音やアクセントなど)と実際誰かが発声した音声(=正解の情報)を使います。このデータの組を使ってAIにテキスト情報を入力したときの仮の出力と、実際の音声のデータとの差を計算すると、誤差が求まります。この誤差が小さくなっていくようにニューロンの枝の「重み」を微調整していく作業がニューラルネットの「学習」です。

次回は上記を使った音声合成技術の広がりについてお話しします。

メディア技術コース 越智

卒業生向け」カテゴリの記事

在学生向け」カテゴリの記事

高校生向け」カテゴリの記事

おもしろメディア学」カテゴリの記事

« 2021年の新しい大学入試に頻出予想の散布図に注目しよう(相関と散布図) | トップページ | デジタル上映の画質 »