« 遠隔会議でカメラ目線にする装置の研究 | トップページ | Anime Japan 2022 出展中! »

卒研生の学会発表(1)

2022年3月25日 (金) 投稿者: メディア技術コース

皆さんこんにちは。

3月は学会シーズンです。私の研究室からも先日卒業した卒研生2名が情報処理学会全国大会で発表しましたので2回の記事に分けて紹介したいと思います。ハイブリッド開催でしたが、残念ながら現地(愛媛大学)に行くことはできずオンライン参加での発表となりました。

1つ目は田中駿哉さんの「ECサイトにおける視覚障がい者向け商品説明のための画像認識に基づく説明文自動生成」という研究です。視覚に障がいのある方はインターネットを利用する際、画面読み上げソフトを使っている方が多いです。Webページなどの画像の場合、その画像に対する適切なキャプション(説明文)が設定されていれば、それを読み上げてくれます。このキャプションはWebページを用意する人が設定するのですが、簡単な単語のみだったり設定されていないこともあります。ECサイト(オンラインショッピングのサイト)では商品画像があるのが普通ですが、もしその画像に適切なキャプションがなければ、どのような商品なのか判断することができません。

そこで田中さんはファッションを対象に商品画像に自動的に適切なキャプションを付けることを考え、画像の中の商品を種類、色彩、性別、デザインの4つの観点で判別し、結果をテンプレート文の穴埋めに利用する形でキャプション生成することに挑戦しました。色とモデルの性別の判別についてはクラウドサービスを利用し、商品の種類とデザインに関しては、ResNet110という畳み込みニューラルネットワーク(CNN)を用いて分類を行うプログラムを作成しました。

ファッション画像のオープンデータを用いて学習を行い識別を試みましたが、商品のみが写っている画像にはかなり対応できるものの、モデルが着ている画像ではかなり精度が落ちてしまいました。対象商品がジャケットなど着ているものの一部のみの場合に、モデルがコーディネートされた服装をしているとボトムスの方を判別しようとしてしまうなど、判別に失敗する原因はいくつかありました。改善策を立て、再評価、再々評価まで行いましたが、大きく改善することは今回はできませんでした。学習に用いた画像の中に、あまり適切ではなかったものが含まれていたことが後からわかり、それを除外して学習をやり直したうえで評価実験をする必要がありそうです。時間切れになってしまったので、これを引き継いで再度実験を行うのを新4年生のメンバーの練習課題にしようかと考えています。

(メディア学部 寺澤卓也)

研究紹介」カテゴリの記事

« 遠隔会議でカメラ目線にする装置の研究 | トップページ | Anime Japan 2022 出展中! »