« プログラミング教育は本当に必要なくなったのか? | トップページ | NICOGRAPH発表紹介: 音ゲーの難易度を操作音だけで判別 »

NICOGRAPH発表紹介: 声の経年変化と環境の経年変化

2023年12月13日 (水) 投稿者: メディア技術コース

メディア学部の大淵です。

11月30日から12月3日まで、4日間にわたって開催された"NICOGRAPH2023"に参加してきました。私の研究室からも毎年何件かの発表をしている学会で、今年は2件のポスター発表を行いました。会場は、富山県南砺市の「南砺クリエイタープラザ(桜クリエ)」で、写真のようなこじんまりとしたおしゃれな建物でした。

Sakura_crea

2件の発表のうち、まずは山崎祐奈さんの「長寿アニメのキャラクターの声優の声の変化に関する研究」を紹介しましょう。この研究は、一人の声優さんが、同じキャラクターを長年に渡って演じている場合に、時代とともに声の質は変わっているのだろうかという疑問から始まった研究です。二十数年にわたって放送されているアニメ番組の声のデータを集め、機械学習によって、何年頃の声なのかを判別できるかどうかを実験してみました。

実は、最初の実験でとても高い判別精度が得られてしまい、これは逆に面白くないかと思ったのですが、そこから話は思わぬ方向に進みます。別の研究で使っていたSpleeterという音源分離ツールで、試しにセリフとBGMを分離してみたところ、BGMだけでも同じくらい高い精度で年代判別できてしまったのです。

ということは、収録に使った機材の変化とか、ミキシングの音質調整の変化とか、声優さんの声の変化とは関係ない情報に基づいて、機械学習が行われている可能性があります。そこで山崎さんは、機械学習で用いる音の特徴を取捨選択しながら、セリフの年代判別率が高く、なおかつBGMの年代判別率が低くなる条件を探していきました。結果として、声の基本周波数(F0)に関連するいくつかの特徴量が重要だという、リーズナブルな結論を得ることができたというわけです。

山崎さんは、かれこれ2年以上にわたって声優さんの声の研究をしており、昨年のNICOGRAPHでも発表を行いました。そこから1年間で着実に研究が進み、より完成度の高い発表になったのではないかと思います。

 

研究紹介」カテゴリの記事

« プログラミング教育は本当に必要なくなったのか? | トップページ | NICOGRAPH発表紹介: 音ゲーの難易度を操作音だけで判別 »