おもしろメディア学

お料理音響実験その後と「今度は輪ゴム楽器」?!

2019年6月22日 (土) 投稿者: メディア技術コース

 昨年後期、大淵・越智研究室の講義先端メディアゼミナール「AIと音響分析」で、研究室で天ぷらを揚げてその音を分析するという、お料理音響実験を行いました。その結果は、3月の記事で報告があったように、学会(芸術科学フォーラム)で発表して見事受賞しました。その内容について、今回は紹介したいと思います。

天ぷらは、以下の図のように、揚げ始めと出来上がりで音が違うことが、経験的に言われていました。それを今回科学的に調べたのです。

Tempra_befores Shuwas Untitled1

Tempra_afters Pichis Untitled2

 

Tempra_comps

音は一定時間ごとに区切ったうえで、以前先端メディア学で行われたコイン当て実験のように、音の大きさや音色、高さに関係する物理量が抽出されます。それと答え(揚がったかどうか)をAIに学習させて、新しい音を入力したときに揚がったかどうか判別させます。

Tempra_ai

この研究は現在精度などを挙げるべくAIの改良中です。

Sentan2019_1_s

また、今学期は新しく、輪ゴムを弦に見立てた楽器の音の研究をしています。
Wagomus

羽田先生のアドバイスのもと、クギなどを使ってオリジナルの自動輪ゴム演奏機械が制作されました。

Wagomu_jidous

現在目下分析中です。天ぷらと一緒に発表があった鉛筆の筆記音の研究もそうですが、音の研究は本当に幅が広いですね。

メディア技術コース 越智

2019年6月22日 (土)

研究の種見つけた!:学生主体の情報交換の場「知の発見」

2019年6月21日 (金) 投稿者: メディア技術コース

Chino_hakken_005m_20190621205201音について研究を行っている大淵・越智研究室では、学生自身が企画した、研究等の紹介と意見交換の会が毎週開かれていて、研究のアイデアが活発に出てくる場になっています。

二年半前に大学院生(当時、昨年大学院修了)の大谷君により「知の発見」と名付けられて開始し、調査した論文、イベントや学会参加、新しい音響機器など、おもしろいと思ったことを各自が持ち寄って共有しています。教員も参加することがありますが、学生主体で自由参加で開かれています。現在は、大学院生の松井君が大谷君を引き継ぎ、中心となって開催しています。

2年生でニコニコ学会βというイベントのボランティアスタッフをした大谷君は、初めて研究発表形式の講演を聞いてとても面白いと思ったそうです。研究に関心を持って大学院進学をするきっかけにもなったそうです。大谷君は、さらに、同じような会を自分もやってみたいと思いました。毎週開催できるように、参加者各自の研究報告に限定せずに、興味を持った国内外の研究論文を広く紹介する会にしようと企画しました。当時大淵研は新しい研究室だったので、自分たちが新しくて面白い文化を作ろうと思い立ったのです。その後、共有内容を論文に限定せずに広く興味を持ったイベント・技術・機器などに広げて現在の「知の発見」という形にして、今は10名前後の有志で毎週続く会になっています。

それでは、今までどんな内容が発表されたか、少し紹介していきます。

(1)論文紹介:AIで好きな曲をダンスゲームにする [1]

音楽に合わせてダンスをするゲーム(Dance Dance Revolution)のダンスステップの指示を、好きな曲から自動生成するという研究です。機械学習の手法である、再帰型ニューラルネットワーク(Reccurent Neural Network: RNN)や畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)などと、音響特徴量の分析を組み合わせています。音響特徴量とは、音楽中にどの周波数(高さに相当する物理量)の音がどの程度の強さで含まれているかなどです。既存の曲とそれに対するステップの指示の譜面のセットから機械学習を行って、未知の曲が与えられた時にもステップの指示を生成できるようにします。これは福永君の、キー音のあるリズムアクションゲームの自動生成の研究のアイデアの生まれるきっかけになりました。

(2)論文紹介:鳥の鳴き声の自動検出 [2]

この研究は、自然環境の中で録音したデータから鳥の鳴き声がいつ録音されたかを取り出すというもので、その技術の精度について世界中で競い合う大会が行われているということが「知の発見」で共有されました。環境や野生動物の観察のため、野山にカメラやマイクを設置して長時間映像と音声を記録するということは、実は世界中で行われています。そのとき大変になるのが、どの時刻に何が(例えば鳥が鳴いた、など)起こったかということを書きだすこと(アノテーション)です。長時間の録画・録音のため、人手で行うのには非常に手間がかかるので、自動的に鳥の声などを検出できるようになることは、上記の分野に大変に役立ちます。この研究紹介の共有は、昨年鳥の鳴き声の研究をしたS君の研究のヒントになりました。

Sekireim

Tsubamem ちなみに、工科大では現在、上の写真のようなハクセキレイ(上)やツバメ(下)といったさまざまな鳥が見られます。夜は裏の森の中から「ホーホーホー」という鳴き声も聞こえますよ。工科大で鳥の声を録音してみても興味深い結果が観察されるかもしれませんね。

他にも楽しい研究紹介・イベント紹介があり、学生の新たな研究のアイデアに繋がったものがあるので、また次回に紹介したいと思います。

メディア技術コース 越智

参考文献:

[1] Donahue, C., Lipton, Z. C., & McAuley, J. (2017, August). Dance dance convolution. In Proceedings of the 34th International Conference on Machine Learning-Volume 70 (pp. 1039-1048). JMLR. org.

[2] Stowell, D., Wood, M., Stylianou, Y., & Glotin, H. (2016, September). Bird detection in audio: a survey and a challenge. In 2016 IEEE 26th International Workshop on Machine Learning for Signal Processing (MLSP) (pp. 1-6). IEEE.

2019年6月21日 (金)

ギャンブルのヒントになるかどうか

2019年6月20日 (木) 投稿者: メディア技術コース

メディア学部の大淵です。

 

先日の「音響コミュニケーション論」では、独立成分分析という手法を紹介しました。この手法を使うと、例えば複数の楽器を演奏している音を複数のマイクで録音すると、それぞれの楽器の音を取りだすことができたりします。この手法の鍵となるのが「独立性」という概念なのですが、これがなかなか難しい概念で、数学が苦手な人にこれをどうやってわかってもらうかが、悩みどころです。

 

悩んだ末に、こんな例を考えてみました。まずは以下の表を見てください。

 

A 3 1 3 1 1 1 3 2 1 2 3 2 2 2 1 1 1 3 1 3 1 3 2 1 2 3 1 1 1 2
B 3 4 2 1 4 4 2 3 1 3 3 2 3 2 4 4 1 2 1 3 4 3 2 1 2 3 4 1 1 2

 

あるカジノに、1から4のどれかが出るルーレットがあるとします。上の表のA行は、ディーラーが「今から○の目を出しますよ~」と言って宣言した数字です。そしてB行は実際に出た数字です。さて、A行とB行には何らかの関係があるでしょうか?

 

少し統計学を学んだことがある人は、こういうときに、A行とB行の相関係数を求めます。Excelでも簡単に計算できますが、やってみると0.037というとても小さな値になりました。だから関係は無い、と結論付けた人は、残念ながらこのギャンブルには勝てません。

 

もう少し注意深い人は、上の表をよく見ると、AとBの間の関係性に気付くはずです。例えばディーラーが1と言ったときには、ルーレットの目は1か4のどちらかです。他の数字でも同じような関係があります。この関係に気付いた人にとっては、ディーラーの宣言を聞くことはとても有益です。2回に1回は当たるはずですから、仮に当たりのオッズが4倍だとすると、ボロ儲けですね。

 

こんなふうに、片方の値の予想をしたいときに、もう片方の値が役に立つかどうかというのが、独立性の定義です(役に立たないときが独立、役に立つときは独立では無い)。そして、取り出した2つの音の独立性を計算できるようになると、独立成分分析による音の分離が可能になるというわけです。

 

2019年6月20日 (木)

縄文土器の3Dオープンデータ

2019年6月 6日 (木) 投稿者: メディアコンテンツコース

鶴田です。

オープンデータとは、著作権や特許などに関わらずに利用できるように公開されたデータです*1。政府が収集した人口とか経済活動のデータ、研究機関や博物館などが公開している科学的なデータが含まれます。

以前の記事では大英博物館が公開している彫刻などの3Dデータ(https://sketchfab.com/britishmuseum)を紹介しましたが、今日は縄文土器の紹介です。

新潟県長岡市が公開しているのは火焔土器(火焔型土器)の3Dスキャンデータ(http://jomon-supporters.jp/open-source/)です。形が燃え上がる炎に似ていたことからこのような名前になったそうです。有機的ですがパターンがあるような気もするし、面白いですね。

Kaendoki_jute
ダウンロードしてレンダリングしてみました↑

こうしたデータを活用すると新しい研究のアイデアができたり、作品や商品を通して文化財への関心を集めることができるかもしれません。メッシュがとても細かいので(頂点数は2,516,568個でした!)ゲームなどに利用するにはデータを加工する必要がありそうです。

*1 当然ですが、利用した作品などを公開する場合は出典を明記しましょう

2019年6月 6日 (木)

PIXARから著作権の許可を得た経験談:Motion Blurの画像

2019年5月26日 (日) 投稿者: メディアコンテンツコース

先日、国立西洋美術館の絵画の紹介をするときに、著作権の関係で写真撮影した画像がこのブログ記事に掲載できませんでした。著作権のために掲載できないとあきらめていてはいけない例として、教科書の執筆における画像の掲載があります。

メディア学部では、コロナ社からメディア学大系シリーズを出版しており、私も3冊ほど共著で執筆をしています。そのなかで、「視聴覚メディア」において、画像や映像の表現と理解について説明する時に、モーションブラーのことを書きました。

CG分野においては、1984年にCookらが Motion Blurと名付けて、写実的なCG表現にBlur(ブラー)の効果を提案しています。この手法は、その後多くの研究者に引用されています。そこで私もこの画像を引用して動きの表現と理解について説明しようと考えました。まず、1984年の論文の著者たちの連絡先を確認するために、国内の知り合いの先生などに伺ったりして、メールアドレスを確認しました。

研究者への連絡はお互いにメールで行うことも多く、私も著者の一人であるCook先生に、教科書に画像を掲載したいことを伝えました。すると、驚くことに、この画像の著作権管理は、Pixar Animation Studiosがおこなっているとのことで、Chief Legal Counsel,Business Strategyに連絡するように書かれていました。そこで、さっそく指定されて方へ連絡をしました。

返事がきました。教科書で利用するというので利用条件を知らせるように連絡がありました。そこで、教科書をコロナ社から出版するということで、モーションブラーの画像は、その教科書で利用すると伝えたところ、 「Permission Agreement」を送ってきました。費用を要求されるかと思いましたが、教科書が完成したら、送るようにとのこと以外は、費用負担はありませんでした。それどころか、ネットで見つけた低解像度の画像ではなく、Pixarで管理している画像データを送るので、サインして書類を返送するように書かれていました。

そのなかで、「Permission Agreement」の最初の一部を次に示します。


Copywrite

 

画像はカラーでしたので、本文に白黒で掲載するだけでなく、口絵でカラー画像を掲載しています。一つの画像の掲載許可を得るために、このようなことが必要であることをメディア学部の学生にはぜひ知っておいてほしいです。

どんな画像かは、この記事では、公開できませんので、ぜひ「視聴覚メディア」をご覧ください。または、「Distributed Ray Tracing Cook」で画像検索してください。

 

参考文献
1.Robert L. Cook,Thomas Porter,Loren Carpenter
Distributed Ray Tracing,SIGGRAPH Computer Graphics Volume 18, Number 3,pp.137-145 July 1984

2.「視聴覚メディア」:コロナ社メディア学大系第15巻の発行 2017年5月 6日

3.本を執筆するために:「視聴覚メディア,メディア学大系,コロナ社」に関するブログ記事 2017年5月13日

 

大学院メディアサイエンス専攻 近藤邦雄

続きを読む "PIXARから著作権の許可を得た経験談:Motion Blurの画像"

2019年5月26日 (日)

ホームページの昔話

2019年5月19日 (日) 投稿者: media_staff

技術コースの羽田です.
今日はインターネットの言葉について書いてみようかとおもいます.
 
ホームページと言われてみなさんは何を思い出すでしょうか?
インターネットに接続してブラウザで表示する画面はみな「ホームページ」だという人が多いかもしれません.ところがこのホームページという言葉の歴史はWorld Wide Web(WWW)がインターネットで普及しだした頃にはすこし違ったものでした.
図はいま世の中で一番多く使われているGoogleChromeの画面です.画面の上のほうのアドレスの表示されているのと同じ列,並んだボタンの左から4番目に家の形をしたマークのものがあります.これがホームボタンで,ここを押すと表示されるページがもともと「ホームページ」だったのです.このページはブラウザを立ち上げたときに最初に表示されるページでもあることがほとんどです.
 
Screenshot-20190519-at-220257

 

続きを読む "ホームページの昔話"

2019年5月19日 (日)

絵画における「波」や「水面」の表現 (おもしろメディア学)

2019年5月16日 (木) 投稿者: メディアコンテンツコース

国立西洋美術館の常設展を見る機会があり、絵画や彫刻を楽しみました。写真撮影も可能であり、描き方などの分析のために大変助かります。この記事では、たくさん見た絵画の中から波の表現や水面の表現についていくつかの絵画を紹介します。詳細な分析をする前の比較ですので、気軽に読んで下さい。

60478127_586357595201671_847184973612135

海の大きな波を表している世界でも大変有名な絵に、葛飾北斎の「冨嶽三十六景 神奈川沖浪裏」があります。
ここに表現されている波が一番大きいグループと考えると、本日見てきた絵画にはそこまで大きな波はありませんでした。


西洋美術館の「著作権とポリシー」によると、「個人によるホームページ・ブログ・SNSでの情報発信」は私的利用ではないとのことで、この学部のブログ記事に撮影した絵画を掲載できません。

それぞれの絵画は、西洋美術館のホームページに紹介されていますので、それを絵画ごとに紹介します。
波や水面の表現をよく観察してください。とても興味あることと思います。

 

続きを読む "絵画における「波」や「水面」の表現 (おもしろメディア学)"

2019年5月16日 (木)

クアラルンプールのランドマーク「Petronas Twin Towers」(マレーシア出張報告6)

2019年4月25日 (木) 投稿者: メディアコンテンツコース

メディア学部では、アニメーション制作をするときに、都会などの背景を制作したり、カメラの視点や向きをいろいろ工夫して構図を決めます。ゲームにおいても背景モデリングが重要な課題になります。

私たち教員はいろいろな出張において、街並みや建物の風景を撮影してきます。背景制作のための参考資料に将来なると考えているためです。

三上先生の記事にも紹介されているPetronas Twin Towersを訪問できました。
 MSU訪問の3日め
今回の訪問では3月27日から29日までMSU訪問期間となっており、30日の深夜のフライトで帰国予定になっていました。そこで、マレーシア出身の大学院メディアサイエンス専攻の卒業生に案内していただき、Petronas Twin Towersやモスク、イスラム美術館を見ることができました。

カメラの向き、方向によって建物の印象が変わってしまいます。

Dsc_7176_1  Dsc_7187 Dsc_7191

Petronas Twin Towersには、真ん中には渡り廊下があり、そこにまず上がってクアラルンプールの風景をみることができます。そこから下をみたら、白い点々があり、何かなっと思っていたら、「あそこはお墓ですよ」とことでした。都会の中心にもいっぱいのお墓があるのですね。

さらにそこから、エレベータで86階まで上がって、街並みの様子と建物の見え方を観察してきました。高所恐怖症の方にはちょっといけない場所かもしれませんね。カメラの位置や方向を変えるといろいろな構図の写真を撮ることが分かります。また、建物の一部を撮影すると、その形や部品がはっきり見えたりします。概略だけでなく、詳細も知っておくと、モデル制作時に役立ちます。

写真を何枚お見せします。
観光気分とともに、モデル制作や構図設定の参考にしてください。

 

Img_1621 Img_1596Img_1600_1Img_1610_2Img_1611Img_1624_1Img_1651Img_1659

大学院メディアサイエンス専攻 近藤邦雄

2019年4月25日 (木)

プロが使うゲームサウンドツールを直接教えてもらえます!

2019年4月10日 (水) 投稿者: メディアコンテンツコース

伊藤彰教です。

まずは以下のプレスリリースをご覧ください!

株式会社CRI・ミドルウェアさま4月9日プレスリリース

東京工科大学4月9日プレスリリース

「あれ?そういえばこのロゴ、ゲーム画面が起動するようなところにたまに見かけるけど…」と気づいた方はなかなかの事情通です。ゲームはたった1社が作るものではなく、多くの企業さんの技術を結集して作っていきます。その中でも、多数の利用実績があるのがこの企業のテクノロジー。よくよく見てみると「あのゲームにも!」「このゲームにも!」と、次々と気づくかと思います。

そしてこの春から、この企業の社員の方を講師としてお招きして、いままで以上に実践的なゲームサウンドの演習を行うことになりました!(正直なところ「学生さんたちがうらやましい〜」と思います…)

そしてなんとこの講師の方は、本学メディア学部を卒業し、大学院メディアサイエンス専攻を修了したわれらが先輩。良くも悪くも(?)メディア学部のことをよく知っている先輩が、企業人になったいま、ゲームの制作現場のテクニックを余すことなく教えてくれます♪

Hioki
本学大学院修了の日置さん(これから日置先生!)

実はこのツール、DAWソフトのように音楽制作っぽい操作もできますし、より凝ったサウンド表現を実現するためには、わずかながらもプログラムを組んでいきます。

Adximg

「コンテンツコースなのにプログラミング?!」

そうです。ディジタル・コンテンツである以上、音楽やサウンドで自由自在にコンテンツ表現しようと思ったら、やっぱりプログラミングが<少しは>できた方がいいののです。本当なら<深く大量に>やるべきプログラミングの負担をできるだけ軽減しているのがこのツール、決して教育用のおもちゃではなく、本当にこれで売り物のゲームがたくさん作られています。

このツール、つい最近大幅なバージョンアップがなされたようで、その最新機能も含めてご紹介いただけるとのこと、楽しみですね♪

 

2019年4月10日 (水)

【研究紹介】お城を数値で作り上げる!:日本城郭のプロシージャルモデリング

2019年1月22日 (火) 投稿者: メディアコンテンツコース

本ブログをご覧の皆様,こんにちは.

メディア学部教授 菊池 です.

最近の映像コンテンツではロケーション撮影やミニチュアによる特撮ではなく,3DCG を用いた広領域な背景を表現するものが多くなっています.
実写ではなく 3DCG を用いる利点は,大きな世界観を持つコンテンツの場合でもビジュアル化が可能である点が挙げられますが,その一方でどうしても必要となる CG モデルの物量とクオリティの確保,および膨大に膨れ上がる制作パイプラインの管理などが課題として挙げられます.

そこで,都市景観やビル群,建築物などの生成規則をルールとしてまとめ,パラメータ制御によってモデルを半自動的に生成してしまうプロシージャルモデリングという手法が多くみられるようになっています.

”プロシージャル”とは日本語で”手続き”と訳され,モデルの生成規則を手続きとしてコンピュータにインプリメントし,その規則に則って自動的に形状を生成してしまおうというものです.
プロシージャル・アニメーションに関する解説は,こちらもご覧ください.

我々の研究室では,戦国時代をシミュレーションしたゲームや映画などの映像コンテンツで利用できる「日本城郭(いわゆるお城)」をプロシージャルにモデリングする研究を行っています[1].

20190121_1
図.「日本城郭のプロシージャルモデリング」の研究成果例

続きを読む "【研究紹介】お城を数値で作り上げる!:日本城郭のプロシージャルモデリング"

2019年1月22日 (火)

より以前の記事一覧