技術

寺澤研究室2025年度卒業研究の振り返り

2026年2月20日 (金) 投稿者: メディア技術コース

メディア学部の寺澤です。

ネットワークメディアプロジェクト(寺澤研究室)は2026年1月29日に2025年度卒業研究の最終発表会を行いました。11名の最終発表と1名の中間発表を行いました。最終発表したテーマは半数以上の6件がAIを直接利用するテーマとなりました。いくつか3月の学会発表を控えているものもあります。また、これらも含め多くのテーマで、研究の過程で作るシステム等の開発にAIを活用する事例が多くみられました。

従来はプログラムを作る以前に、必要な開発環境を整備することに苦戦する学生が多かったのですが、AIの利用で2025年度はそれは全くありませんでした。最低週1回は全体および個別のミーティングを行っているのですが、研究の進め方についてAIに相談している学生もいました。また、コーディングにAIを利用する場面もみられました。開発環境自体がAIを使ったコーディングを前提としているものもあります。これは一見学生が単に楽をしているように見えるかもしれませんが、そうではありません。また、すべてAIに作らせているわけでもありません。

AIに指示する際には、どのような仕組みをどう実現したいのかを明確に指示しないと、自身の研究の特徴を表現できません。また、生成されたコードが想定通りに動くのかのテストは必ず学生自身にテストケースを作成して実施してもらい、ミーティングではコード内容の説明も求めています。人間である他人が書いたプログラムを読むのも苦労するものですが、学生たちはAIが生成したコードの解読に手間取っていました。

一方、「それなりに動く」段階に早く到達できたことで、これまでより研究の内容を深めることができました。「ここまでできたのなら、これもやってみよう」と、優先順位を下げていたことまで実現できるようになりました。研究の本質的なことに割ける時間が増えたのです。

研究の道具も変化しています。ソフトウェアが中心の開発の場合、研究室に用意しているPCではなく、学生自身が持っているノートPCのみで開発が行われることが多くなりました。これは、数年前からの傾向でもありますが、各種のクラウドサービスを利用したり、開発をGoogle Colabで行ったり、生成AIをAPIで利用したりということが一般化し、また、ノートPCの性能がそのような作業のためには十分高いため研究室のPCがあまり必要なくなっているのです。作ったシステムの実行環境としても需要が少なくなっています。研究室の今のPCは割と最近買い替えたものですが、今後は研究室のPC更新はかなり縮小してもよさそうです。その代わりサービスの利用料の支払いが増えています。私の老眼対策として、モニタは大型の良いものに買い替えています(笑)。各自のノートPCをモニタにつないでもらってミーティングしています。

言い換えれば、研究室まで来なくても進められるテーマが増えたということになります。そのため、学生にとって、研究室に対面で集まり他の学生の研究の進捗発表を聞いたり、自分の研究内容の説明をしたり、あるいは助け合ったりというミーティングの重要性がより高まりました。

なお、卒業論文や発表スライドはもちろん学生が自力で作成しています。添削をしていますからこれは確かです。

(メディア学部 寺澤卓也)

2026年2月20日 (金)

WISS2025 参加

2026年1月28日 (水) 投稿者: メディア技術コース

メディア学部の加藤です。

昨年、12月12月3〜5日に北海道・定山渓ビューホテルで開催されたWISS2025に参加してきました。
インタラクションは、Human-Computer Interaction(HCI)分野の国内学会のひとつで、毎年 12月に開催されています。

査読付きの口頭発表のほか、ポスター・インタラクティブ(デモ)セッションなどがあり、多くの研究者・学生が発表を行っています。
今年は、学生の共著で 2件の発表を行いました。

1件目は、研究生の郭 安邦さんの発表で、オカリナの演奏支援システムに関する発表を行いました。
金彩技法によって陶磁器のオカリナ表面に電気回路を形成し、タッチセンサとして機能させることで指孔の押下を検出します。
これによって、PC上に実装したシステムによって、運指の正誤をフィードバックすることで、オカリナの演奏の学習支援を実現しました。
20251204_172659

郭 安邦, 太田 高志, 加藤 邦拓金彩回路を用いたオカリナ演奏支援システム. 第33回インタラクティブシステムとソフトウェアに関するワークショップ(WISS 2025)論文集, 2-C23, pp.1–2, (2025). [PDF] [Video]

2件目は、学部 4年生の尾崎 夢弥さんの発表です。
通常のプッシュソレノイドと、双安定ソレノイドを組み合わせることで、通常入力 / キーの自動押下 / キーの固定の 3状態を制御できる PCキーボードを開発しました。
開発したキーボードによって、ユーザのPC作業時の入力をサポートする様々な機能を実現することができます。
こちらの発表は、プログラム委員の投票による WISS2025 対話発表賞を受賞しました。
20251205_111401

 

 

尾崎 夢弥, 加藤 邦拓, 太田 高志. 双安定ソレノイドを用いたキーの状態制御が可能なキーボード. 第33回インタラクティブシステムとソフトウェアに関するワークショップ(WISS 2025)論文集, 3-B07, pp.1–2, (2025). 【対話発表賞 (プログラム委員投票)】[PDF] [Video]

それぞれの研究の詳細については、上記リンクから、論文や動画を御覧ください。

2026年1月28日 (水)

メタバース発表会

2026年1月26日 (月) 投稿者: メディア技術コース

メディア学部技術コースの盛川です。

本年度はじめの4月に、大阪・関西万博の海外パビリオンを見学し、その内容を報告・発表するイベントが企画されました。参加を希望する学生を全学から募集し、応募した学生には万博の入場チケットが配布されました。そして、その成果発表会が先月12月10日に開催されました。

当初は教室での対面開催を予定していましたが、大学での新しいICT活用の取り組みとして、今回はメタバース空間で実施することになりました。会場として利用したのは、VRサービスを提供している株式会社HIKKYの「VketCloud」というメタバース共有サービスです。

イベントに先立ち、本学専用のメタバース空間「こうかとんスクエア」が用意され、講義形式で発表ができるバーチャル会場が作られました。

Photo_20260126082301

 

発表会当日は、学生たちが作成したスライドをメタバース空間内で共有しながら、それぞれがアバターとなって発表を行いました。アバターの姿で発表したり、アバター同士で聴講したりする体験はまだあまり馴染みがなく、少し戸惑う場面もありましたが、普段とは違う新鮮な発表会になったと感じています。

__20260126082601

 

一方で、実際にやってみたからこそ見えてきた課題もありました。資料をどのように見ればよいか分かりにくいことや、声がどこまで届いているのか把握しづらいこと、誰が話しているのか見つけにくいことなど、対面やオンライン会議とは異なる難しさもありました。こうした点は、メタバースならではのコミュニケーションの工夫が必要だと実感しました。

メタバースやVRサービスの教育利用については、現在さまざまな場面で活用方法が検討されています。今回のような取り組みを継続していくことで、運営のノウハウが蓄積され、より使いやすい環境づくりにつながっていくと考えています。実際に、私の研究室でも本年度の卒業研究として、このイベントの体験をアンケート調査から分析しました。

新しいメディアは、知識として学ぶだけでなく、実際に使ってみて体験することがとても大切です。そうした経験を重ねながら考えていくことが、これからのメディアのより良い活用や広がりにつながっていくのではないかと思います。

 

2026年1月26日 (月)

VLMに関する研究発表が自然言語処理研究発表会の若手奨励賞を受賞しました

2026年1月 9日 (金) 投稿者: メディア技術コース

以下の画像をご覧ください。これが何かお分かりになりますでしょうか?

1mainazo1 1mainazo2

これらは「1枚謎」と呼ばれるものです。1枚謎は、画像1枚のみで謎の提示から解答までが完結する形態の謎解き問題です。脱出ゲームやテレビのバラエティー番組などで目にしたことがある方も多いのではないでしょうか。上の2つの1枚謎は、学生に作ってもらったものです。答えはこの記事の一番下に書いておきます。

近年、AIが高度に発展し、多くの問題を解けるようになってきました。数学の微積分や幾何学の問題なども高い頻度で正解に辿り着けるまでにAIは賢くなりました。それでは、上に示したような1枚謎はどうでしょうか? このような疑問を持った学生、宮本さんが75問の1枚謎を使ってAIの「謎解き力」を調査してくれました。この調査結果を、2025年12月17日に情報処理学会の第266回自然言語処理研究発表会で研究発表してきました。

ChatGPT、Gemini、Claude、LINE AIの4つのAI (正確には、Vision-Language Model (VLM))に対して調査しました。調査結果を下の画像に示します (クリックすると、大きい画像を見ることができます)。「レベル5での正答」とは「ヒントなしで正答」のことです。「レベル4での正答」は「ちょっとしたヒントをもらっての正答」を意味します。「レベル1での正答」は「ほぼ解答に近いヒントをもらっての正答」です。「レベル0」は、「ヒントをあげても正解に至らなかった」を意味します。

Miyamotoresult

日常の疑問にいつもスラスラと答えてくれるAIですが、日本語の1枚謎に関して、ノーヒントの正答率は平均5.3%程度でした。現在のAIにも謎解きはまだ難しいようです。(ですので、脱出ゲームの最中に現在のAIを使ってカンニングしても、答えを得ることは難しいだろうと言えます。)

この記事では詳細を述べませんが、1枚謎のカテゴリーごとの分析結果についても研究報告しました。これらの研究成果が学会に評価され、このたび、情報処理学会 第266回自然言語処理研究発表会 若手奨励賞を受賞することができました。

Miyamotonl266

AIはこれからもどんどん発展していくので、いつの日か1枚謎も簡単に解いてしまうのかもしれません。そのような日が来れば、人間とAIがお互いに1枚謎を出題しあって楽しむようなことができるのかもしれませんね。

 

冒頭の1枚謎の答えは、

「メロン」と「しいたけ」

です。

 

(文責: 松吉俊)

 

2026年1月 9日 (金)

動画生成AI:Sora2を使えばAIに授業をさせられるか!?

2025年11月 5日 (水) 投稿者: メディア技術コース

メディア学部の藤澤です。先日、OpenAIから発表された動画生成AI:Sora2を使って授業動画を作れないか試してみました。

Sora2とは?

2025年秋、OpenAIが発表した最新の動画生成AI Sora2 が世界中で大きな注目を集めています。Sora2は、テキストや画像の指示から10〜15秒ほどの高品質な動画を自動生成できるAIモデルで、映像の一貫性や物理的リアリティの高さが特徴です。例えば、登場人物の動き、カメラワーク、照明、背景の連続性まで自然に表現され、まるで実写のような短編映像を作ることができます。

さらに、Cameo機能 を活用すると、実在する人物の3Dアバターを動画内に登場させることも可能です。ユーザー自身の姿をCameoとして登録すれば、まるで自分が演技しているかのような動画をAIが生成してくれます。登場人物同士の会話や表情の変化も自然で、AI俳優が演じる“仮想映像制作” が現実のものとなりつつあります。

Sora2では、以下のような点が特に注目されています:

 

 

 

  • シーン間の整合性:複数カットの中でキャラクターや背景が一貫している。

  • 自然な動きと物理法則の再現:風に揺れる髪、重力による落下、歩行などが現実的。

  • 多様なカメラアングル:ズームやドリーショットなど映画的な表現も自動生成。

  • 音声合成との統合:ナレーションや会話を自然に組み合わせられる。

つまり、これまでの動画生成AIが「断片的な映像」を作る段階にとどまっていたのに対し、Sora2はストーリー性や演出を含んだ“映像作品”を生成するAI へと進化しているのです。


実験:Sora2で授業動画を作ってみまし

そこで今回、Sora2を使って短い授業風動画 を生成してみました。Cameo登録したAIが作った私が教壇に立ち、授業を行う映像がどの程度自然に見えるかを検証しました。まずは以下の動画をご覧ください。

一つ目の動画と二つ目の動画では少し声のトーンが変わっていますが、おおむね問題ないようです。


生成してみての印象

Sora2で生成した動画のクオリティは非常に高く、動作も滑らかで、話し方も自然に感じられます。特に注目すべきは、フィラー音(「えーっと」など)が全く入らない こと。コロナ禍のオンデマンド授業では自分の話し声を録音していましたが、どうしても間延びしたり、フィラーが入ったりしてしまいました。Sora2なら、こうした“人間らしい不完全さ”を排除し、スムーズで聴き取りやすい日本語 で授業が進められます。

ただし、いくつかの課題もあります。例えば、動画内に表示される日本語テキストはまだ不自然 な場合が多く、正しい日本語表記にするには調整が必要です。また、適切な内容や演出にするためには試行錯誤が必要 で、生成に時間もかかります。10秒の動画を作るだけなら、自分で喋って撮影した方が早いというのが正直なところです。


今後の可能性

しかし、将来的にSora2が長尺の動画生成 に対応するようになれば状況は変わってくるでしょう。たとえば、自分の著書や授業資料をSora2に読み込ませ、その内容に基づいた完全自動授業動画 が作れる日も遠くないかもしれません。AIが自動で教材を生成し、教師の代わりに授業を行う――そんな未来の入り口に、Sora2は立っているのです。

Sora2は、“AIが話すだけでなく、AIが教える”ことができるようになることを示唆するツール でしょう。教育現場での応用可能性を探るうえで、今後も注目していきたいと思います。

2025年11月 5日 (水)

紅華祭での研究室展示2025

2025年10月13日 (月) 投稿者: メディア技術コース

メディア学部の寺澤です。

10月12日(日)、13日(月)は本学八王子キャンパスの学園祭「紅華祭」です。紅華祭はキャンパスに同居している東京工科大学と日本工学院八王子専門学校が一体となって開催されています。天気が心配でしたが雨にはならず今年もにぎやかに開催されています。

私の研究室では例年、紅華祭で研究室発表を行っています。身近な問題を最新の技術で解決する方法について研究しているテーマが多いです。

Img_8363s

卒業研究を行っている4年生は紅華祭に合わせて自分の研究の現在の進捗状況を示すポスターを作成します。このポスターは来年以降のオープンキャンパスなどでも使います。代々そうしているので現4年生もこれまで先輩のポスターで研究室の説明をしていたのですが、今回初めて自分のテーマや同期の人のテーマの説明を行いました。

Img_8366s

何人かは現状のシステムのデモを行ったり、来場者に試してもらって意見を伺ったりしていました。動画でのデモもありました。

Img_8367s

卒業生たちも来てくれました。このように懐かしい顔ぶれに出会えるのも紅華祭の良いところです。今年ははるか昔の卒業生もお子さんを連れて何組か来てくれました。

卒業研究もこれから追い込みです。AIの急速な発達により研究の方法も大きく影響を受けていますが、それぞれが知恵を絞り納得のいく成果をあげられるよう、サポートしていきます。

(メディア学部 寺澤卓也)

 

2025年10月13日 (月)

生成AIによるメディア学部オープンキャンパス紹介ツール

2025年9月 5日 (金) 投稿者: メディア技術コース

メディア学部の藤澤です。

今回、今年度のオープンキャンパス向けに作成したGPTsOpenCampus Guide 2025@TUT.MSを紹介します。GPTsとは、OpenAIChatGPTをベースに、ユーザー自身がカスタマイズして作成できる「特化型AIアシスタント」のことを指します。知識や応答スタイル、利用目的に合わせて設定できるため、教育や研究支援、イベント案内など幅広い用途に活用することが可能です。

その一環として、昨年度に引き続き改良を重ねて開発しているGPTsの一つ OpenCampus Guide 2025 を、今年6月と8月に開催されたオープンキャンパスにて紹介しました。本記事では、その概要と活用方法、さらに利用上の注意点についてご紹介します。なお、本ツールは、学部や大学の公式ツールではなく、藤澤研で勝手に作ったものですので、大学や学部への問い合わせはご遠慮ください。

実際のGPTは以下から利用できます。

 

続きを読む "生成AIによるメディア学部オープンキャンパス紹介ツール"

2025年9月 5日 (金)

人工知能学会全国大会で研究発表を行いました

2025年9月 3日 (水) 投稿者: メディア技術コース

2025年5月27日~30日に大阪国際会議場にて2025年度 人工知能学会全国大会(第39回大会)が開催されましたので、研究発表をしに参加してきました。

大阪国際会議場は、大阪市の市役所のすぐ近くにあります。この時は市役所の前に大きなミャクミャクの像がありましたが、この像は7月30日に万博会場内に移転されたようです。

Pxl_20250529_040204469

大阪市は水の都であり、大阪国際会議場は2本の川の中に建っています。写真の高い建物がこの会議場です。

Pxl_20250529_044623764 Pxl_20250528_083719261

今回は、当研究室に在籍する大学院修士課程2年生の林さんにポスター発表してもらいました。研究タイトルは以下のとおりです。リンクをクリックすると、誰でも自由に論文を読むことができます。

林さんは香港からの留学生です。大学4年間を東京工科大学メディア学部で過ごし、研究を続けるため、大学院に進学しました。林さんは広東語のネイティブスピーカーです。広東語は中国語の方言の1つですが、中国語の標準語である普通話や北京語とはかなり異なる言語です。北京語のネイティブスピーカーと広東語のネイティブスピーカーが話し合っても、お互いに何を言っているか全く分からないほど、語彙や発音や文法が異なっています。(広東語のネイティブスピーカーは、普通話や北京語について知っていることが多いので、お互いに普通話や北京語で話せば、話が通じます。念のため) 広東語は、主に、中国広東省や香港、マカオ、マレーシア、シンガポール、ブルネイなどで公用語として使用されています。ですので、これらの場所に旅行した時に聞こえてくる中国語は広東語ということが多いです。

__20250828172901 Pxl_20250528_063635847mp

ポスター発表当日は、この研究に興味を持ってくれた方々と研究についてたくさん議論しました。

東京工科大学メディア学部では、メディアを活かした教育に関する研究や、ゲーム (ゲーミフィケーション)を活用した研究もできます。研究成果の外部発表も積極的に行っています。本学部に興味をもった方は、ぜひ本学部のホームページを訪れてみてください。

 

(文責: 松吉俊)

 

2025年9月 3日 (水)

そもそも、オーラキャストって何?

2025年8月 1日 (金) 投稿者: メディア社会コース

 オーラキャストは、Bluetoothの新しい機能で、音声や音楽を多くの人に同時に届けることができる技術です。これまでのBluetoothは1対1の通信が基本でしたが、オーラキャストではペアリングなしで、複数の人が同じ音をスマートフォンや補聴器、ワイヤレスイヤホンで受け取ることができます。たとえば、駅のアナウンスや学校の授業、映画館などで使われ、聞こえにくい人や騒がしい場所でもはっきりと音を聞くことができます。公共の場での情報伝達がより便利で、誰にとってもやさしい社会の実現に役立つ技術です。

Voicesforall_20250531005

 前回のブログで書いた通り、このオーラキャストとWi-Fiを用いた音声配信システムを導入し、聴覚障害者にもアナウンスなどの声や音が届く社会基盤の実現を目指します。最新の補聴器や人工内耳にはオーラキャストが搭載されていますが、まだ社会で実装されていないのでその機能はオンになっていません。今後、鉄道・空港・公共施設・ホール・スタジアム・映画館・学校・病院などに導入が進むことで、その威力を発揮することになるでしょう。

 実は、この仕組みにより聞こえる人々も便利になります。

・雑音の多い場所でも、ワイヤレスイヤフォンなどでアナウンスの声が聞こえる

・多言語放送により、日本語以外の言語の観光客などに放送を流すことができる

・大きな音が出せない場所でも、ワイヤレス送信することで音楽イベントを開催することができる

・そのエリアだけの小さなラジオ局を運営できる(避難所などでも使える)

 すでにオーラキャストを搭載したヘッドフォンやイヤフォンが販売されていますが、まだ価格が高いので普及はしていません。しかし、今後スマートフォンに搭載される可能性も示唆されているので、例えばiPhoneに搭載されると一気に普及するでしょう。「オーラキャスト」という言葉を覚えておきましょう。

 


メディア学部 吉岡 英樹

001_20220613213101
略歴:バークリー音楽院ミュージックシンセシス科卒業後、(有)ウーロン舎に入社しMr.ChildrenやMy Little Loverなどのレコーディングスタッフや小林武史プロデューサーのマネージャーをつとめる。退社後CM音楽の作曲家やモバイルコンテンツのサウンドクリエイターなどを経て現職。1年次科目「音楽産業入門」を担当。現在は聴覚障害支援を専門としており、メディア専門演習「サイレント・コミュニケーション」、3年次科目「音声情報アクセシビリティ」、聴覚障害支援メディア研究室 を担当している。


 

2025年8月 1日 (金)

アナウンスの声を聴覚障害者にも届ける「Voices for All」始動。

2025年7月30日 (水) 投稿者: メディア社会コース

 WHOは2050年までに25億人近くが何らかの聴覚障害を持つと予測していますが、日常生活の中で「聞こえにくさ」を抱える人々の困難については十分に理解されていません。多くの人にとって館内・校内・車内・機内・緊急の各放送による情報提供は当たり前のものですが、聴覚障害者はこれらの情報を得ることが困難です。私が立ち上げたプロジェクト「Voices for All」では、補聴器や人工内耳を使用している人々に向けてBluetoothの次世代規格である「Auracast(オーラキャスト)」とWi-Fiによるハイブリッド配信を活用して、音声情報を直接補聴器に届ける実証実験を実施します。また、リアルタイム字幕による情報提供も行い、聞こえない方への情報を補完します。音声情報のアクセシビリティ向上により、「誰一人取り残さない社会」を実現したいと考えています。

Voicesforall_20250531004

 先日、Bettear社製の配信機材が届きました。実は、私の研究室への導入が「日本初!」となります。後日、プレスリリースを行う予定です。

Img_3323

8月には大阪で聴覚障害当事者の方々にデモを行う予定で、11月には函館で開催される全国大会で当事者や支援者の方々に説明とデモを行う予定です。これまで聴覚障害者が諦めていたアナウンスの声が聞き取れないという課題を解決する一つの案として期待されています。またブログでもご報告いたします。

 


メディア学部 吉岡 英樹

001_20220613213101
略歴:バークリー音楽院ミュージックシンセシス科卒業後、(有)ウーロン舎に入社しMr.ChildrenやMy Little Loverなどのレコーディングスタッフや小林武史プロデューサーのマネージャーをつとめる。退社後CM音楽の作曲家やモバイルコンテンツのサウンドクリエイターなどを経て現職。1年次科目「音楽産業入門」を担当。現在は聴覚障害支援を専門としており、メディア専門演習「サイレント・コミュニケーション」、3年次科目「音声情報アクセシビリティ」、聴覚障害支援メディア研究室 を担当している。


 

2025年7月30日 (水)

より以前の記事一覧