« コミュニケーションにおけるジェスチャーの重要性 | トップページ | 先端メディアゼミナール »

NICOGRAPH2017でのAIを使った音メディア研究の発表(その2)

2018年1月25日 (木) 投稿者: メディア技術コース

大淵・越智研究室のメンバー2人は芸術科学会の学会NICOGRAPH2017(2017 年11月10日(金)~12 日(日)開催)で、音に関する研究の研究成果を発表しました。今回はその2としてAIを使った身近な音の判別についての研究を紹介したいと思います。(その1(リズムゲームの研究)はこちら

3年生の横田渉君は、硬貨が落下したときの「チャリーン」という音から、どの硬貨かを当てる研究を行いました。今回の発表は、2年後期~3年前期の「先端メディアゼミナール」の中で行った研究の成果です。横田君は昨年度から硬貨の判別の実験を行っていて、今回は硬貨の種類や効果の落下先の材質の種類を増やしてより難しい条件で実験をしました。

Coin_02_2

機械学習の実験ではどういうことをしたかというと、まずAIに色んな落下音を聞かせてどれがどの硬貨の音かというこを教える作業である、学習を行いました。そのために今回は、1円・5円・10円硬貨を1つずつ陶器やスチール缶といった4種類の材質の物の上に落とした音を、昨年度のぶんと合わせて約800回分録音しました。防音室に籠っての地道な作業です。機械学習では、なるべくたくさんのデータを用意する必要があるためです。
 
学習を進めるには、音の波形をそのまま与えるのではなく、音を分析して得られた特徴量をn個ならn次元のベクトルにして与えます。分析とは具体的には、音の高さに対応する基本周波数に関わる特徴量や音量、どの周波数の音がどれくらい含まれているかを表すスペクトルに関わる特徴量を求めることです。これらは「チャリーン」という間、すなわち時間経過とともに変化するので、鳴っている間の最大値・平均値・線形回帰をしたときの傾きと誤差といった統計量を代表の値として学習に使います。

Feature_extraction_02_3

ここでいう線形回帰とは、ある音響特徴量に対して、小さいものから大きいものまでそれぞれいくつずつあるかという度数分布図を作ったうえで、その度数分布のグラフに対して直線を当てはめて近似することです。傾きが負の場合は小さいところのほうが値が集中していることになります。

こうして機械学習を行った結果、1円・5円・10円の判定はそれぞれ正解率として92.9%、75.6%、75.0%を得ることができました。3つの分類のためランダムに判別したとすると33.3%になるところですが、いずれも4分の3以上という高い正解率を得ることができています。アルミでできている1円だけ出る音に特徴があるためか、高い正解率を出しています。

Coin_spec_touki_2

上図は陶器に落とした1円と10円のスペクトログラムです。スペクトログラムとは、ある時刻の音についてどの周波数の音がどの強さで含まれているかを色の濃淡で表したもので、横軸が時刻、縦軸が周波数となっています。どちらも、硬貨が跳ね返るたびに音出ているのが縦線として現れています。また、どちらも2kHz, 4.5kHz, 7.9kHz付近などに共通した周波数の倍音から来る横縞が見られるので、陶器の形や材質が影響しているようです。ただしそれより高い周波数帯の成分や、横縞の長さ、つまり倍音の持続時間が異なっているように見えます。聞いてみると意外に似たような音だとしても、以上のように成分や音量の変化に微妙な相違点があり、その点を機械学習を使うと「聞き分ける」ことができるのです。
下図は、今回使用した機械学習の手法の概念図です。たくさんの録音サンプルをもとにどこに境界線を引くか計算します。

Kikai_01

また、横田君は音響特徴量を学習に加えたり除いたりすることにより、どの特徴量が重要かを調べました。その結果、1円・5円では音の周期性に関わる特徴量、10円ではスペクトルが幅広い周波数にわたって広がっているかどうかに関係する特徴量が重要であることがわかりました。
以上のような硬貨の自動判定を実現することは、最近普及しているセルフレジを使うときなど、日常生活の場面でのモニターやログを行ううえで応用できる可能性があります。
 
メディア技術コース 越智
 
[文献]
横田渉, 大淵康成「機械学習を用いた3種類の硬貨落下音の分析」 NICOGRAPH2017, P-7 , 2017

研究紹介」カテゴリの記事

高校生向け」カテゴリの記事

« コミュニケーションにおけるジェスチャーの重要性 | トップページ | 先端メディアゼミナール »