« 菊池研究室「Procedural Animation & Contents Design Science」 4 年生が学会発表で受賞 | トップページ | 卒研の成果を学会発表(その2)学生奨励賞受賞 »

卒研の成果を学会発表(その1)

|

皆さん、こんにちは。

メディア学部の寺澤です。

3月13日から15日にかけて早稲田大学で開催された情報処理学会第80回全国大会において、ネットワークメディア研究室の4年生3名が卒業研究の成果の発表を行いました。各日に1人ずつの発表となったのですが、最終日の発表では学生セッションで「学生奨励賞」を受賞することができました。

初日に発表を行ったのは、山崎颯太 君で発表タイトルは”Twitter において関連付け可能なツイートをスレッド化するシステムの 検討と開発”です。この研究は、Twitterを情報収集の手段として使う場合を念頭に、リプライ機能を使わずに行われた「会話」を抽出することを目指したものです。先行研究の成果を一部利用し、新たに、TF-IDF法とコサイン類似度という技術を導入してツイート同士の関係性を評価することにより会話を抽出します。ツイッターでは、文とは思えない内容や、アスキーアートなどの投稿もあり、全てを対象とすることはできませんが、ある程度日本語文になっているツイートの会話を対象に、それを再現できるかを検証したところ、6割程度は再現することができました。うまくいかない場合の分析もできたので、今後の改良で精度をさらに高められそうです。

Img_1914

2日め14日の発表は吉田奏子さんによる”Web サイトを意味的内容の一致度合により分類する手法の検討”です。インターネットで検索を行うと、結果がURLのリストとして示されます。順番にそれらのサイトにアクセスしてみると、実は前に見たサイトと同じ内容のことが書かれているということがあります。技術分野、例えば、パソコンのトラブルの解決法、Wordなどのソフトで特定の処理をしたい場合、プログラムを作成する際のエラーの修正方法などについて検索すると、このような経験をよくします。一度見つけた方法でうまく対処できなかった場合、別の方法を知りたいわけですが、次のサイトを見てみるとまた同じ方法が書かれていると効率が良くありません。そこで、検索結果に現れるサイトを、あらかじめ意味的に同じ内容ごとにグループ化してしまうことができれば良いのではないかということで行なった研究です。

Img_1928

Webページは大まかに言って、文字で書かれた「テキスト」と、「図」、「表」、「プログラム」の組み合わせで書かれていると想定し、Webページ間でこれらの要素それぞれについて類似度を求めた上で総合判定をすることを考えました。実際にプログラムとして実現できたのはテキストの比較と図の比較です。テキストの比較にはdoc2vecという手法を、図の比較にはOpenCVという画像処理プログラムに含まれるBag of Visual Words分類器を用い、それぞれの要素については類似性の高いものを見つけて分類することができました。今後も継続的に研究を進める予定です。

「(その2)」に続きます。

(メディア学部:寺澤卓也)

研究紹介」カテゴリの記事

高校生向け」カテゴリの記事

« 菊池研究室「Procedural Animation & Contents Design Science」 4 年生が学会発表で受賞 | トップページ | 卒研の成果を学会発表(その2)学生奨励賞受賞 »