おもしろメディア学

おしゃべりAI~音声合成の潮流~(1)

2019年10月 4日 (金) 投稿者: メディア技術コース

こんにちは。最近はスマートフォンやスマートスピーカーなどで話し声を作り出して再生する「音声合成」技術の利用が広がっていますね。今回は最近の音声合成技術について、連載形式でお話します。

音声合成は、任意の文章(テキスト)を音声に変換することです。今日に実用化されている音声合成は、ゼロから音声の波形(音圧の時々刻々の変化)を作り出すのではなく、誰かの声の録音を材料として使って行います。2000年代初めまで主流だったのは、

  1. 音声波形を短く切ってつなぎ合わせるもの(波形接続)
  2. 一度パラメータに変換してからパラメータの系列を生成するもの(例えば隠れマルコフモデルを使った方法)

Blog_hmm002

/k a/の合成のようす

でした。後者は、上図のように、ある確率でいろんな音ののパラメータを発生(出力)する「状態」(図のマルのところ)の系列を仮定して、出したい音に対応したパラメータを出力させていきます。

近年は、いわいるAIの技術のひとつであるディープラーニング(深層学習)が活用されています。ここで、簡単にディープラーニングを用いたニューラルネットを説明します。ニューラルネットは、神経の活動を模した学習モデルです。Neuron

神経細胞(ニューロン)同士が互いに結合して構成されています。基本的なモデルでは、ひとつひとつに何本かの入力(図では頭から延びる枝)と枝分かれしている出力(顔の下から延びる枝)の経路が付いています。

 Activate

入力からは何らかの数値が入ってきます。この合計が小さいと出力がほとんど出ず(ここでは0)、ある値より大きいと「発火」して一気に大きな出力が(ここでは1)出ます。

Weighting

出力された値には、次のニューロンに届くまでに「重み」と呼ばれる係数が掛け算されます。例えば、1に重み2.1をかけると値は2.1になりますね。全ての枝で重みが掛け算された後で次のニューロンの入力に入り、そこでまた合計が大きい場合に次の発火が起こります。

Training_dnn

では、どうやってAIは「学習」されるのでしょうか。教師あり学習といわれる学習では、テキストから取り出した情報(発音やアクセントなど)と実際誰かが発声した音声(=正解の情報)を使います。このデータの組を使ってAIにテキスト情報を入力したときの仮の出力と、実際の音声のデータとの差を計算すると、誤差が求まります。この誤差が小さくなっていくようにニューロンの枝の「重み」を微調整していく作業がニューラルネットの「学習」です。

次回は上記を使った音声合成技術の広がりについてお話しします。

メディア技術コース 越智

2019年10月 4日 (金)

2021年の新しい大学入試に頻出予想の散布図に注目しよう(相関と散布図)

2019年10月 3日 (木) 投稿者: メディア技術コース

メディア学部健康メディアデザイン研究室の千種です。皆さんは「散布図」というものを使ったことあるいは作ったことがあるでしょうか?メディア学部の「メディア」とは皆さんご存知のように情報を伝達する媒体のことです。散布図も相関という情報を読み手に伝達する立派なメディアです。

散布図はWikipediaによると以下のよ    うに説明されています。
『散布図(さんぷず、英: scatter plot)は、縦軸、横軸に2項目の量や大きさ等を対応させ、データを点でプロットしたものである。分布図ともいう。各データは2項目の量や大きさ等を持ったものである。日本工業規格では、「二つの特性を横軸と縦軸とし,観測値を打点して作るグラフ表示」と定義している。散布図には、2項目の分布、相関関係を把握できる特長がある。データ群が右上がりに分布する傾向であれば正の相関があり、右下がりに分布する傾向であれば負の相関がある。』

2021年から大学入学共通テストが始まります。これに先立って2017年と2018年に試行調査(プレテスト)が行われました。その傾向を見ると、多くの教科で長い文章を読み取ったり、図表・グラフ・写真・絵・資料から必要な情報を探して答えを導いたりと、情報を多面的・多角的な視点で解釈する力や、もっている知識を活用しながら仮説を立てて考える力が問われています。

そこで今回のブログ記事ではグラフの中でも頻出されている散布図についてフォーカスしてみます。散布図は2つの異なる情報の特性あるいは関係を知るために様々な実験データを点として作るグラフです。実際に2017年のプレテストでは、散布図を用いた出題が、数学I・数学Aで1題、地理Bで2題、生物で1題、地学で1題、ありました。2018年のプレテストでは、地理Bで5題、物理で2題、地学で3題、あり、様々な実験データを見える化するのに広く使用されています。

簡単な典型例を下図に示します(http://www.toukei.metro.tokyo.jp/manabou/tyuu/sirou2/tokutyou2/ma1206t24b.htm より引用)。
前述のように散布図は、一般に何かの原因となる測定データがあり、同時に、その結果となる測定データもあり、その2つの関係を見える化するのに使用されます。まずは散布図の意味の解釈法あるいは読み取り方を説明したいと思います。

下図のように散布図には典型的な3パターンがあります。①左図:原因xが増加すると結果yも増加するという正の相関を示します。体重と身長の関係がこれに属します。②中央図:原因xが増加すると結果yが減少するという負の相関を示します。テレビからの音量について、テレビからの距離と音量の関係がこれに属します。③右図:原因xを変化させても結果yの変化に関係が観測できないという無相関を示します。ルーレットの1回目と2回目の出目の関係がこれに属します。

Photo_20190930064801


このように様々なデータの原因と結果の関係を分析するのにとても有益なグラフ表現法が散布図です。メディア学部の基礎演習Iでも千種が担当する演習テーマに使用して測定データの分析に使用し、照度の測定や電波強度の測定に使用して、測定結果を分析しています。

 

2019年10月 3日 (木)

本の量り売り(Re:Design #1)

2019年9月12日 (木) 投稿者: メディア技術コース

私は本が好きで、学会や旅行で行った先で本屋を見かけるとつい入ってしまいます。本が好きということについては、本の内容についての「好き」の他に、紙で綴じられた「本」という形態が好きであるという面もあるのではないかと思います。表紙のデザインや文字の印刷、挿絵などが魅力的で、外国語で書かれていて内容が読めなくてもモノとして素敵だと感じます。本はかさばるので電子書籍がいいという人も多いかもしれませんが、それは本の内容だけを対象とした考え方ですね。造形物としての本が好きな場合は、電子書籍では満足できないのです。といっても、格別の綺麗な本でなくて一般的な文庫本でも、新品のきれいな装丁の本で十分魅力的なものを感じてしまうことがあります。また、本が沢山並んでいるところを見ること自体も楽しく感じます。

 

 Img_0207 Img_0965

左:台湾(台中)の書店、右:スペイン(バルセロナ)の書店

 

さて、色々な書店や図書館に行って共通することは、本の配置でしょう。普通、本はジャンル別に分けられ、さらに細かい分類や、小説などであれば著者別になって置かれています。そうすることで希望の本を見つけやすくなっているわけです。これは、本をその内容によって選ぶということを前提とした方法ですね。当たり前のように思いますが、世の中には少し異なったアプローチをしている例があります。

 

近畿大学の学生用の施設の工夫として、本が置かれている場所を迷路のようにしているというものがあります。道筋が斜めに入り組んでいてあえて迷うように作られているとのことです。本自体はジャンル別に配置しているようですが、あえて目的の場所にスムースに進めないようにすることで、興味あること以外の本との出会いがあるようにしているのです。大学という場であるため、学生により広い教養を持つようになってほしいということからこのような設計をしているのです。

 

別のアプローチは、どこの国だったか忘れてしまったのですが(スペイン?)、市場の中で本を売っている店があって、なんとそこでは肉のように本が量り売りされています!そうした値段付けが可能なのは中古本を扱う店だと思いますが、内容や元の定価などによらず、グラム当たりいくらというように値段付けがされています。普通、本の値段を重さで決めるなんてことはしませんね。本の価値を内容に依って決めているのではないことが明らかです。しかしながら、これは本の内容を無価値なものと考えた結果ではありません。店主によると、自分で選んで店に置いてある本はどれも価値のあるもので内容によって差別できるものではないため、内容でなく単純に物体としての違いとして重さによる値段付けをしているのだそうです。これは配置とは関係無いことでしたが、この考え方を適用して、重さ別に本を並べて置くということができそうですね。そうすることで、本の選び方が変わってきそうな気がします。外出のときに持ち歩く用に軽い本が欲しいと思って選ぶのであれば軽い重量の棚から本を探し、部屋に飾る重厚な本が欲しいという場合には最重量級の棚を探す、なんて選び方がでてくるかもしれません。

 

私達は、様々な事柄や方法について、現在のものを当たり前のものとして疑いもなく受け入れてしまっていることが多いと思いますが、そこに従来とは違う対象との関わり方を導入してみることによって、全く新しい価値が提示されることがあるのです。これは、人とモノとのインタラクションをデザインするということです。こうしたインタラクションのデザインという考え方で物事を見直すことによって従来のアプローチを便利にしたり楽しくしたりする可能性が多々あります。また、そうした人との関わりという視点を全く考えられていないなと不満に思うことが世の中には多々あります。私の研究室では、既存のものをデザインしなおす新しい視点、面白い視点を見つけるようなことをテーマとして取り上げたいと考えています。

 

 

太田高志

 

2019年9月12日 (木)

学会ってどんなとこ?

2019年9月11日 (水) 投稿者: メディア技術コース

Gakkai2019_2w

今は学会シーズンです。連続して3つの学会に行ったので、それぞれの特色を比較しつつ、学会ってどんな雰囲気なのかについて紹介します。

(1)国際会議IEVC2019

  1. 画像がテーマ
  2. インドネシアバリ島で行われた

サウンドの研究が専門の私はこの画像の学会で、画像と音を両方使った研究の発表を行いました。VRなどを目指した360度映像・画像で臨場感の高いバイノーラル録音を活用する研究プロジェクトです。学会発表には大きく分けて、口頭発表とポスター発表の二種類があります。私は今回ポスター発表を行いました。口頭発表は通常の座学形式の発表で、プレゼンテーション+会場からの質疑応答で構成されます、それに対し、ポスター発表とは、研究内容を印刷したA0サイズ程度の大きなポスターを壁に貼ってその前に立ち、見に来た学会参加者に対して直接説明するという形式です。一対多の口頭発表に比べてよりインタラクティブでありたくさんの意見を聞くことができます。今回は、画像やゲームなどに関わる研究者とそのコンテンツに付与する高臨場感がある音とはどういうものかについて活発に議論する機会を得ることができました。

ところで、IEVCは画像を扱う学会であることもあり、ポスター発表の発表者にも、全員の前で自分の発表の概要を1分で述べる時間(ファスト・フォワード)があります。例えばCGについての研究であれば、画像を載せたスライドを出して、聴衆の興味を引いてたくさんの人に聞きに来てもらうことができます。一人1分しかないため、発表者が列になって次々と入れ替わって話すという光景が見られます。

Ffws

さらに、余談ですが、お昼休憩には地元のインドネシア料理の食堂に行きました。写真のようなスープを注文しました。あっさり味でのスープと、ご飯と、激辛唐辛子ソース(左上)の組み合わせがとてもおいしかったです。たいていの料理にライムが添えてあったり、レモングラスというハーブがふんだんに使われていて、辛さの中にも爽やかな清涼感を感じることができます。この学会参加を通じてインドネシアの食文化の奥深さとすばらしさを体験することができました。

Soup

Restaurant006w

(2)JSSFD(日本吃音・流暢性障害学会)

  1. 医療系学会
  2. 当事者(患者)・家族参加型
  3. 今回は神奈川県

次は、がらっと変わって、国内の医療系学会です。筆者が助成金を受けて行っている研究プロジェクトに関わるテーマであり、特定の疾患を扱っている珍しい学会です。また、当事者と家族が参加しているという意味でも特色があり、患者にとっては自分たちの疾患の会に自分たちが参加せずに専門家だけで話し合われる、という従来の形の学会にはない画期的な交流が行われます。とくに、お昼にマイメッセージというプログラムがあり、経験談が語られて生の声が患者と専門家の間で共有されました。

Mymassagews

(3)ASJ(日本音響学会)

  1. 音がテーマ
  2. 学際的・文理融合型
  3. 今回は滋賀県

最後は、音響・音声・音楽など音を扱った学会についてです。音についてなら、言語を研究する人文系の専門家の話、音響教育、建築物での音の響きなどを扱う話、騒音の話、超音波の話など、なんでも含まれています。つまり、聞きたい音、消したい音、聞こえない音、色々な話題があるのです。たくさんの部屋に分かれて口頭発表やポスター発表が行われていて、色々聞いて回ることができます。質疑応答では、結構厳しく鋭い質問が飛んだりします。音を流す発表が多いので、いざ発表時に音が出ないということがないよう、発表者は入念に確認して発表に臨みます。

Asjws

学生の皆さん、このように学会には様々な独自の特色があります。発表の時はドキドキ緊張すると思いますが、是非チャレンジして学外の人と意見交換して自分の研究に磨きをかけてください。

 

メディア技術コース 越智

2019年9月11日 (水)

ゲーム理論とゲームについて(2) 「ナッシュ均衡」と「囚人のジレンマ」

2019年9月 9日 (月) 投稿者: メディア技術コース

渡辺です。こんにちは。
7/5の記事で「ゲーム理論」に関する解説を掲載したのですが、そこから随分間が空いてしまいました。当初は二週間くらいで投稿するつもりだったのですが、学生の研究発表やら採点やら学会やらが続いてしまい、ズルズルとこの時期まで延びてしまいました...
さて、この記事は前回の続きとなりますので、まずは前回記事をご覧下さい。そちらでは、「ゲーム理論」という学問領域の紹介を簡単に行っています。
ジョン・フォン・ノイマン(1903-1957) とオスカー・モルゲンシュタイン(1902-1977)により創始された「ゲーム理論」は、当初は社会や経済の世界の事象を数学的に記述していくことに重点が置かれました。これにより、これまで論述的にしか分析がなされなかったことを数学的に分析することが可能となったことは確かなのですが、それはあくまで「問題を数式として記述できた」ことを意味するだけで、具体的にどのように最適な解を求めることは困難と言えました。
これに対し、1950年にジョン・ナッシュ(1928-2015)が今では「ナッシュ均衡」と呼ばれる画期的な手法を発表しました。このナッシュ均衡を説明する前に、ゲーム理論における用語を先に説明しておきます。
まず、ゲーム理論とは「複数のプレイヤーが様々な行動を行いながら自身の利益を追求する様子を記述する」というものです。ここでいうプレイヤーは、通常のゲームのように各プレイヤーを指すときもありますし、企業同士の競争の場合は各企業、国同士の争いのときには各国が「プレイヤー」となります。また、プレイヤーは利益を得るために様々な行動を行っていきますが、この行動を「戦略」と呼びます。
ナッシュ均衡はこの「プレイヤー」「利益」「戦略」という用語を用いると、「どのプレイヤーも、現在選択している戦略と別の戦略を選択しても利益が上昇しない」という状態のことを言います。なぜこれが画期的だったかというと、多くの場面でこの「ナッシュ均衡」こそ全プレイヤーが合理的に判断した様子を表すからです。つまり、「シミュレーション」を行うことができるというわけですね。この考え方が提案されて以降、ゲーム理論ではまず最初にこの「ナッシュ均衡」を求めることがセオリーとなりました。また、ゲーム中のキャラクターAIを実現する上でも重要な考え方となっています。
では、プレイヤーはこの「ナッシュ均衡」に基づいた行動を取っていれば、常に最大の利益を得られると言えるのでしょうか?それについて、1950年にアルバート・タッカー(1905-1995)が「囚人のジレンマ」という強烈な事例を提示しました。

続きを読む "ゲーム理論とゲームについて(2) 「ナッシュ均衡」と「囚人のジレンマ」"

2019年9月 9日 (月)

「かわいい象」を作ってみました 【おもしろメディア学】

2019年9月 2日 (月) 投稿者: メディアコンテンツコース

メディア学部コンテンツコースの鶴田です。

8/5のタオルで制作された象の記事はご覧になったでしょうか?気になったので自宅のバスタオルとフェイスタオルで作ってみました。

Elephant

タオルのサイズは違うと思いますが、おおよそ復元できたかなと思います(頭が大きめ?)。頭部分のタオルが柔らかすぎて鼻や耳の辺りがうまく形成できませんでした。特に鼻の部分は少し水に塗らすとキュッと絞れて良さそうですね。

というか元のモデルを見直すと、かなりしっかりと形成されているので、濡らして絞った状態で乾かしているのかもしれません。実際に手を動かしてみると、意外な気づきがあるものです。

ちなみに、折り紙の世界でもウェットフォールディングという技術があります。気になった人は調べてみてください!

 

2019年9月 2日 (月)

タイのホテルで見たタオルで制作された「かわいい象」の作り方 【おもしろメディア学】

2019年8月 5日 (月) 投稿者: メディアコンテンツコース

先月、タイに出張してきました。その時に滞在したホテルに写真のような象がベットにありました。大歓迎されていますね。
とっても素敵ですので、崩さないようにしたいところですが、コンピュータグラフィックスやモデリングの研究をしていますので、どうやって作っているのか、とても興味がわきました。

67315675_2612998032078630_58414680415603 67691466_2612998065411960_30781057800339

そこで、決心をして壊していくことにしました。

(1)ライトをきちんと当てて、形が分かるようにしました。

Dsc_0047 Dsc_0048


(2)頭の部分を触ってみたら、すぐに取れることが分かりました。

Dsc_0049

(3)頭と顔を正面から見てみます。

Dsc_0050


(4)耳の部分を展開していきます。

Dsc_0051 Dsc_0052

続きを読む "タイのホテルで見たタオルで制作された「かわいい象」の作り方 【おもしろメディア学】"

2019年8月 5日 (月)

オープンキャンパス準備:展示用動画を撮影しました~バイノーラル録音と音楽とスーパーボールと~

2019年7月12日 (金) 投稿者: メディア技術コース

7月14日のオープンキャンパスで音の研究についての展示を行いますが、先日、オープンキャンパス展示用動画を撮影しました。これは、昨年度卒業生の工藤君による360度画像とバイノーラル録音との組み合わせについて提案する研究での知見にもとづいた展示です。

Music1

バイノーラル録音とは、人間やダミーヘッドの2つの耳部分に取り付けたマイクで録音するもので、音の耳介での反射や頭での回り込みを再現できて高い臨場感が得られます。しかし、バーチャルリアリティ(VR)などで、聞き手が頭の向きを変えたりするさいに向きの変化に対応するには非常にコストや手間がかかります。

そこで、人間の聴覚をだます形で、バイノーラルで録った環境の音(風音や雑踏のガヤガヤした音など)を録って、バイノーラルでない録音と組み合わせて手軽にコンテンツ制作をできないかと考え、実験をしています。工藤君の実験の結果をもとに、今回は大学構内でバイノーラル録音と、楽器演奏の音を録音して、360度カメラの映像と組み合わせました。

Oc2019vr_bins_20190710220301

Oc2019vr_360s

この360度画像とバイノーラル録音の研究は、現在は佐塚君がさらに発展させて継続中です。

さて、撮影ですが、演奏中にスーパーボールを飛ばしたりもしたので、どんなVR映像になるでしょうか。

Superball1

録画担当者と演奏者の間にスーパーボールを飛ばしています

メディア技術コース 越智

2019年7月12日 (金)

ゲーム理論とゲームについて(1) ゲーム理論の紹介

2019年7月 5日 (金) 投稿者: メディア技術コース

渡辺です。こんにちは。

 

最近、研究室の学生達と新しい研究を色々と進めておりまして、その中で「ゲーム理論」と呼ばれる学問がとても重要となってきました。せっかくですので、この「ゲーム理論」について不定期連載をしていきたいと思います。

 

もし「ゲーム理論」という単語を初めて見る人は、この単語からどのような内容を想像するでしょうか。おそらくは、ゲーム中のキャラクターがどのように動いていくかとかの、ゲーム内の様々な技術を総称したものと考えるのではないでしょうか?私も学生時代にこの単語を初めて目にしたときはそのような連想をしました。しかし、私の場合問題はその状況でした。というのも、この単語をはじめて聞いたのは経済学の授業の中だったのです。企業利益予測とか社会経済動向とかの説明の中で突如「ゲーム理論」という言葉がでてきて、最初は聞き間違えたかと思ってしまいました。

 

「ゲーム理論」を簡単に説明すると、複数の主体(人・企業・国)が何かしら目標を持っていて、それを達成するために各々で行動していき、その結果がどうなるのかを推測・分析するという学問です。このように抽象的に述べるとわかりづらいのですが、その典型的なものの一つが対戦型ゲームやスポーツ競技です。ババ抜きや七並べなどのトランプゲーム、あるいはテニスやマラソンなどがそれにあたります。これらのゲームやスポーツでは、ルールに従って勝利条件が定められ、勝利を目指してプレイヤーや選手が様々な方針で挑みます。ルールや条件を変えてみると、企業間の利益競争とか、国同士の発展も同じような法則を持つので、これを理論化したものが「ゲーム理論」というわけです。

 

続きを読む "ゲーム理論とゲームについて(1) ゲーム理論の紹介"

2019年7月 5日 (金)

7月14日のオープンキャンパスで音・声を研究する展示をします!(大淵・越智研究室)

2019年7月 2日 (火) 投稿者: メディア技術コース

メディア技術コースの越智です。次回(7月14日(日))開催のオープンキャンパスで、大淵・越智研究室は音・声の研究についての展示を行います。メディア学部の研究室の展示は片柳研究所と研究棟Cの二か所で行われますが、大淵・越智研究室の展示会場は研究棟C3階の号室です。今回はその内容を紹介したいと思います。

Campus002

(1)音の振動を体感する・可視化する

物を振動させるスピーカーの音を聞いて、触って音の発生を体感します。また、声や音の共鳴を可視化してさらに理解を深めます。

(2)音響処理を体験する

世界のコンサートホール・地下駐車場・倉庫など、さまざまな空間での音の響きを音響信号処理により計算して聞き比べることで、音響信号処理の基礎を体験していただきます。

(3)バイノーラル録音で高臨場感を体験する

二つのマイクで録音するステレオ録音は広く使われていますが、人間の耳への音の届き方(肩や耳たぶでの反射や頭を回り込む音など)は再現できません。ここでは、バイノーラル録音という技術により、臨場感が高いコンテンツを体感して録音技術の奥の深さを体験していただきます。

(4)音楽ライブのための、プログラミング・AI・音楽を融合したパフォーマンス

音楽ライブの演奏の進化版として、プログラミングやAIを駆使したライブ演奏についての研究を紹介します。ライブパフォーマンスの可能性をぜひご覧ください。

他にも、これまでの研究室の卒業研究の成果を展示しています。7月14日のオープンキャンパスにお越しの際はぜひ大淵・越智研究室にお立ち寄りください。

技術コース 越智

2019年7月 2日 (火)

より以前の記事一覧