技術

動画生成AI:Sora2を使えばAIに授業をさせられるか!?

2025年11月 5日 (水) 投稿者: メディア技術コース

メディア学部の藤澤です。先日、OpenAIから発表された動画生成AI:Sora2を使って授業動画を作れないか試してみました。

Sora2とは?

2025年秋、OpenAIが発表した最新の動画生成AI Sora2 が世界中で大きな注目を集めています。Sora2は、テキストや画像の指示から10〜15秒ほどの高品質な動画を自動生成できるAIモデルで、映像の一貫性や物理的リアリティの高さが特徴です。例えば、登場人物の動き、カメラワーク、照明、背景の連続性まで自然に表現され、まるで実写のような短編映像を作ることができます。

さらに、Cameo機能 を活用すると、実在する人物の3Dアバターを動画内に登場させることも可能です。ユーザー自身の姿をCameoとして登録すれば、まるで自分が演技しているかのような動画をAIが生成してくれます。登場人物同士の会話や表情の変化も自然で、AI俳優が演じる“仮想映像制作” が現実のものとなりつつあります。

Sora2では、以下のような点が特に注目されています:

 

 

 

  • シーン間の整合性:複数カットの中でキャラクターや背景が一貫している。

  • 自然な動きと物理法則の再現:風に揺れる髪、重力による落下、歩行などが現実的。

  • 多様なカメラアングル:ズームやドリーショットなど映画的な表現も自動生成。

  • 音声合成との統合:ナレーションや会話を自然に組み合わせられる。

つまり、これまでの動画生成AIが「断片的な映像」を作る段階にとどまっていたのに対し、Sora2はストーリー性や演出を含んだ“映像作品”を生成するAI へと進化しているのです。


実験:Sora2で授業動画を作ってみまし

そこで今回、Sora2を使って短い授業風動画 を生成してみました。Cameo登録したAIが作った私が教壇に立ち、授業を行う映像がどの程度自然に見えるかを検証しました。まずは以下の動画をご覧ください。

一つ目の動画と二つ目の動画では少し声のトーンが変わっていますが、おおむね問題ないようです。


生成してみての印象

Sora2で生成した動画のクオリティは非常に高く、動作も滑らかで、話し方も自然に感じられます。特に注目すべきは、フィラー音(「えーっと」など)が全く入らない こと。コロナ禍のオンデマンド授業では自分の話し声を録音していましたが、どうしても間延びしたり、フィラーが入ったりしてしまいました。Sora2なら、こうした“人間らしい不完全さ”を排除し、スムーズで聴き取りやすい日本語 で授業が進められます。

ただし、いくつかの課題もあります。例えば、動画内に表示される日本語テキストはまだ不自然 な場合が多く、正しい日本語表記にするには調整が必要です。また、適切な内容や演出にするためには試行錯誤が必要 で、生成に時間もかかります。10秒の動画を作るだけなら、自分で喋って撮影した方が早いというのが正直なところです。


今後の可能性

しかし、将来的にSora2が長尺の動画生成 に対応するようになれば状況は変わってくるでしょう。たとえば、自分の著書や授業資料をSora2に読み込ませ、その内容に基づいた完全自動授業動画 が作れる日も遠くないかもしれません。AIが自動で教材を生成し、教師の代わりに授業を行う――そんな未来の入り口に、Sora2は立っているのです。

Sora2は、“AIが話すだけでなく、AIが教える”ことができるようになることを示唆するツール でしょう。教育現場での応用可能性を探るうえで、今後も注目していきたいと思います。

2025年11月 5日 (水)

紅華祭での研究室展示2025

2025年10月13日 (月) 投稿者: メディア技術コース

メディア学部の寺澤です。

10月12日(日)、13日(月)は本学八王子キャンパスの学園祭「紅華祭」です。紅華祭はキャンパスに同居している東京工科大学と日本工学院八王子専門学校が一体となって開催されています。天気が心配でしたが雨にはならず今年もにぎやかに開催されています。

私の研究室では例年、紅華祭で研究室発表を行っています。身近な問題を最新の技術で解決する方法について研究しているテーマが多いです。

Img_8363s

卒業研究を行っている4年生は紅華祭に合わせて自分の研究の現在の進捗状況を示すポスターを作成します。このポスターは来年以降のオープンキャンパスなどでも使います。代々そうしているので現4年生もこれまで先輩のポスターで研究室の説明をしていたのですが、今回初めて自分のテーマや同期の人のテーマの説明を行いました。

Img_8366s

何人かは現状のシステムのデモを行ったり、来場者に試してもらって意見を伺ったりしていました。動画でのデモもありました。

Img_8367s

卒業生たちも来てくれました。このように懐かしい顔ぶれに出会えるのも紅華祭の良いところです。今年ははるか昔の卒業生もお子さんを連れて何組か来てくれました。

卒業研究もこれから追い込みです。AIの急速な発達により研究の方法も大きく影響を受けていますが、それぞれが知恵を絞り納得のいく成果をあげられるよう、サポートしていきます。

(メディア学部 寺澤卓也)

 

2025年10月13日 (月)

生成AIによるメディア学部オープンキャンパス紹介ツール

2025年9月 5日 (金) 投稿者: メディア技術コース

メディア学部の藤澤です。

今回、今年度のオープンキャンパス向けに作成したGPTsOpenCampus Guide 2025@TUT.MSを紹介します。GPTsとは、OpenAIChatGPTをベースに、ユーザー自身がカスタマイズして作成できる「特化型AIアシスタント」のことを指します。知識や応答スタイル、利用目的に合わせて設定できるため、教育や研究支援、イベント案内など幅広い用途に活用することが可能です。

その一環として、昨年度に引き続き改良を重ねて開発しているGPTsの一つ OpenCampus Guide 2025 を、今年6月と8月に開催されたオープンキャンパスにて紹介しました。本記事では、その概要と活用方法、さらに利用上の注意点についてご紹介します。なお、本ツールは、学部や大学の公式ツールではなく、藤澤研で勝手に作ったものですので、大学や学部への問い合わせはご遠慮ください。

実際のGPTは以下から利用できます。

 

続きを読む "生成AIによるメディア学部オープンキャンパス紹介ツール"

2025年9月 5日 (金)

人工知能学会全国大会で研究発表を行いました

2025年9月 3日 (水) 投稿者: メディア技術コース

2025年5月27日~30日に大阪国際会議場にて2025年度 人工知能学会全国大会(第39回大会)が開催されましたので、研究発表をしに参加してきました。

大阪国際会議場は、大阪市の市役所のすぐ近くにあります。この時は市役所の前に大きなミャクミャクの像がありましたが、この像は7月30日に万博会場内に移転されたようです。

Pxl_20250529_040204469

大阪市は水の都であり、大阪国際会議場は2本の川の中に建っています。写真の高い建物がこの会議場です。

Pxl_20250529_044623764 Pxl_20250528_083719261

今回は、当研究室に在籍する大学院修士課程2年生の林さんにポスター発表してもらいました。研究タイトルは以下のとおりです。リンクをクリックすると、誰でも自由に論文を読むことができます。

林さんは香港からの留学生です。大学4年間を東京工科大学メディア学部で過ごし、研究を続けるため、大学院に進学しました。林さんは広東語のネイティブスピーカーです。広東語は中国語の方言の1つですが、中国語の標準語である普通話や北京語とはかなり異なる言語です。北京語のネイティブスピーカーと広東語のネイティブスピーカーが話し合っても、お互いに何を言っているか全く分からないほど、語彙や発音や文法が異なっています。(広東語のネイティブスピーカーは、普通話や北京語について知っていることが多いので、お互いに普通話や北京語で話せば、話が通じます。念のため) 広東語は、主に、中国広東省や香港、マカオ、マレーシア、シンガポール、ブルネイなどで公用語として使用されています。ですので、これらの場所に旅行した時に聞こえてくる中国語は広東語ということが多いです。

__20250828172901 Pxl_20250528_063635847mp

ポスター発表当日は、この研究に興味を持ってくれた方々と研究についてたくさん議論しました。

東京工科大学メディア学部では、メディアを活かした教育に関する研究や、ゲーム (ゲーミフィケーション)を活用した研究もできます。研究成果の外部発表も積極的に行っています。本学部に興味をもった方は、ぜひ本学部のホームページを訪れてみてください。

 

(文責: 松吉俊)

 

2025年9月 3日 (水)

そもそも、オーラキャストって何?

2025年8月 1日 (金) 投稿者: メディア社会コース

 オーラキャストは、Bluetoothの新しい機能で、音声や音楽を多くの人に同時に届けることができる技術です。これまでのBluetoothは1対1の通信が基本でしたが、オーラキャストではペアリングなしで、複数の人が同じ音をスマートフォンや補聴器、ワイヤレスイヤホンで受け取ることができます。たとえば、駅のアナウンスや学校の授業、映画館などで使われ、聞こえにくい人や騒がしい場所でもはっきりと音を聞くことができます。公共の場での情報伝達がより便利で、誰にとってもやさしい社会の実現に役立つ技術です。

Voicesforall_20250531005

 前回のブログで書いた通り、このオーラキャストとWi-Fiを用いた音声配信システムを導入し、聴覚障害者にもアナウンスなどの声や音が届く社会基盤の実現を目指します。最新の補聴器や人工内耳にはオーラキャストが搭載されていますが、まだ社会で実装されていないのでその機能はオンになっていません。今後、鉄道・空港・公共施設・ホール・スタジアム・映画館・学校・病院などに導入が進むことで、その威力を発揮することになるでしょう。

 実は、この仕組みにより聞こえる人々も便利になります。

・雑音の多い場所でも、ワイヤレスイヤフォンなどでアナウンスの声が聞こえる

・多言語放送により、日本語以外の言語の観光客などに放送を流すことができる

・大きな音が出せない場所でも、ワイヤレス送信することで音楽イベントを開催することができる

・そのエリアだけの小さなラジオ局を運営できる(避難所などでも使える)

 すでにオーラキャストを搭載したヘッドフォンやイヤフォンが販売されていますが、まだ価格が高いので普及はしていません。しかし、今後スマートフォンに搭載される可能性も示唆されているので、例えばiPhoneに搭載されると一気に普及するでしょう。「オーラキャスト」という言葉を覚えておきましょう。

 


メディア学部 吉岡 英樹

001_20220613213101
略歴:バークリー音楽院ミュージックシンセシス科卒業後、(有)ウーロン舎に入社しMr.ChildrenやMy Little Loverなどのレコーディングスタッフや小林武史プロデューサーのマネージャーをつとめる。退社後CM音楽の作曲家やモバイルコンテンツのサウンドクリエイターなどを経て現職。1年次科目「音楽産業入門」を担当。現在は聴覚障害支援を専門としており、メディア専門演習「サイレント・コミュニケーション」、3年次科目「音声情報アクセシビリティ」、聴覚障害支援メディア研究室 を担当している。


 

2025年8月 1日 (金)

アナウンスの声を聴覚障害者にも届ける「Voices for All」始動。

2025年7月30日 (水) 投稿者: メディア社会コース

 WHOは2050年までに25億人近くが何らかの聴覚障害を持つと予測していますが、日常生活の中で「聞こえにくさ」を抱える人々の困難については十分に理解されていません。多くの人にとって館内・校内・車内・機内・緊急の各放送による情報提供は当たり前のものですが、聴覚障害者はこれらの情報を得ることが困難です。私が立ち上げたプロジェクト「Voices for All」では、補聴器や人工内耳を使用している人々に向けてBluetoothの次世代規格である「Auracast(オーラキャスト)」とWi-Fiによるハイブリッド配信を活用して、音声情報を直接補聴器に届ける実証実験を実施します。また、リアルタイム字幕による情報提供も行い、聞こえない方への情報を補完します。音声情報のアクセシビリティ向上により、「誰一人取り残さない社会」を実現したいと考えています。

Voicesforall_20250531004

 先日、Bettear社製の配信機材が届きました。実は、私の研究室への導入が「日本初!」となります。後日、プレスリリースを行う予定です。

Img_3323

8月には大阪で聴覚障害当事者の方々にデモを行う予定で、11月には函館で開催される全国大会で当事者や支援者の方々に説明とデモを行う予定です。これまで聴覚障害者が諦めていたアナウンスの声が聞き取れないという課題を解決する一つの案として期待されています。またブログでもご報告いたします。

 


メディア学部 吉岡 英樹

001_20220613213101
略歴:バークリー音楽院ミュージックシンセシス科卒業後、(有)ウーロン舎に入社しMr.ChildrenやMy Little Loverなどのレコーディングスタッフや小林武史プロデューサーのマネージャーをつとめる。退社後CM音楽の作曲家やモバイルコンテンツのサウンドクリエイターなどを経て現職。1年次科目「音楽産業入門」を担当。現在は聴覚障害支援を専門としており、メディア専門演習「サイレント・コミュニケーション」、3年次科目「音声情報アクセシビリティ」、聴覚障害支援メディア研究室 を担当している。


 

2025年7月30日 (水)

生成AIは音楽をどこまで作れるのか? ー 伊藤謙一郎先生に聞く、Suno AIの実力とは

2025年6月11日 (水) 投稿者: メディア技術コース

メディア学部の藤澤です。普段は、機械学習の様々な応用について研究をしていますが、今回は音楽生成AIの話です。私自身は音楽からは縁遠い生活なのですが、昨今の生成AIを用いた楽曲生成を使ってみて、素人目には非常に素晴らしいものができていました。これが専門家から見るとどうなるのかを知りたくなり、同じメディア学部で作曲を専門とする伊藤謙一郎先生にお話を伺いました。

 


 

近年、生成AIの進化が目覚ましく、文章生成AIや画像生成AIをはじめ、さまざまな分野でその活用が進んでいます。中でも、ここ1年ほどで急速に注目を集めているのが音楽生成AIです。Suno AIやUdio AIといったサービスの登場により、誰でも簡単に楽曲を生成できる時代が到来しつつあります。

音楽生成AIとは?

音楽生成AIとは、人工知能を用いて楽曲を自動で作成する技術です。与えられたテキストやスタイル、ジャンルなどの条件に基づき、メロディ、和音、リズム、さらには歌詞や音声までも自動的に生成することが可能です。従来、音楽制作には専門知識と時間を要しましたが、これらのAIによって、より多くの人が音楽制作にアクセスできるようになってきました。

 


 

伊藤先生が見たSuno AIの実力

伊藤先生ご自身は、現在のところSuno AIなどの音楽生成AIを積極的に使用しているわけではありません。しかし、学生が話題にすることも多く、実際に生成された楽曲を耳にする機会は増えているそうです。

その上で、Suno AIの技術的完成度について、以下のような評価をされていました。

 

 

 

  • ジャンルに合わせた作曲が秀逸
    単に指定された楽器を使うだけでなく、スタイルに即した曲調や構成が的確に模倣されている。

  • 作詞の精度も高い
    適切な韻を踏んでおり、自然なリリックとして成立している。

  • リズム感のある裏打ち
    曲中に効果的な裏打ち(バックビート)が挿入されており、音楽的にも説得力がある。

  • 歌詞と旋律の整合性
    単語を1音に凝縮したり、語尾を引き伸ばすなど、メロディに合わせた処理が自然で、感情表現も豊かである。

  • 音質の向上
    バージョンを重ねるごとにミックスや音質が向上しており、商用レベルに近づいている印象がある。

 


 

人間とAIの創作の関係

伊藤先生は、Suno AIのようなツールが「音楽制作を身近にする」という点で大きな可能性を感じつつも、今後の創作活動における人間の役割についても慎重な考察が必要だと語ります。

「AIが生み出す音楽は確かに魅力的です。ただ、創作の本質には“なぜそれを作るのか”という意図が必要です。AIが補完できる部分と、人間にしか担えない部分の境界を、今まさに私たちは探っているのだと思います。」

また伊藤先生は、AIが作った音楽には、明確な違和感とまでは言えないものの、「人が作ったものとは異なる何か」を感じることがあるとおっしゃっています。この話題から、画像生成AIの分野でも見られたように、今後は人間の作曲家がAIのスタイルに寄せて作るという現象が起きる可能性についての話もあがりました。そうなると、「人が作ったもの」と「AIが作ったもの」の境目は次第に曖昧になっていくのかもしれません。

 


 

おわりに

音楽生成AIは、テクノロジーの力で音楽表現の地平を押し広げようとしています。Suno AIはその最前線にある存在であり、メディア学部としてもこの分野の動向を注視していく価値があるでしょう。

 

2025年6月11日 (水)

インタラクション2025参加

2025年5月19日 (月) 投稿者: メディア技術コース

メディア学部の加藤です。

少し前のことなのですが、2025年 3月2日〜4日に開催されたインタラクション2025に参加しました。
インタラクションは、Human-Computer Interaction(HCI)分野の国内学会のひとつで、毎年 3月に都内で開催されています。

査読付きの口頭発表のほか、ポスター・インタラクティブ(デモ)セッションなどがあり、多くの研究者・学生が発表を行っています。
東京工科大学からも毎年多くの発表があり、メディア学部からは太田研、三上研、羽田研など複数の研究室が参加をしています(他にもCS学部からも参加あり)。

今回、4件の研究を発表してきました。
(口頭発表 1件、ポスター発表 1件、インタラクティブ発表 2件)

インタラクティブ発表の内、1件は太田・加藤研究室の学生(B4劉天鑑くん)の発表でした。

劉 天鑑, 加藤 邦拓, 太田 高志. 思い出を再び体験するVR日記. インタラクション 2025 論文集, 3B-26, pp.1117–1122, (2025). [Link] [PDF] [Video]
Img_20250304_095952414_hdr_ae

インタラクティブセッションではもう1件、陶磁器上に回路を作成する手法のデモ発表を行いました。
この研究は、アーティストの方たちとの共同研究として発表をしており、インタラクティブセッションのプレミアム発表として採択されました。
またこの研究は、当日の参加者による投票の結果、インタラクティブ発表賞を受賞しました。

坂田 亮一, 吉松 駿平, 星川 あすか, 加藤 邦拓金彩技法を用いた陶磁器表面への回路作成. インタラクション 2025 論文集, 3B-48★, pp.1221–1225, (2025). 【プレミアム発表】【インタラクティブ発表賞 (一般投票)】 [Link] [PDF] [Video]Img_20250304_100446639_hdr_ae

口頭・ポスターセッションでは、慶應義塾大学・杉浦研究室、LINEヤフー研究所との共同研究を発表しました。

一居 和毅, 池松 香, 礒本 俊弥, 加藤 邦拓, 杉浦 裕太. ユーザの自然なインタラクションに基づく操作ミス推測. インタラクション 2025 論文集, pp.60–69, (2025).  [Link] [PDF] [Presentation Video]

田島 孔明, 池松 香, 礒本 俊弥, 加藤 邦拓, 杉浦 裕太. スマートフォン利用時の手の疲労度推定. インタラクション 2025 論文集, 2P-70, pp.886–890, (2025). [Link] [PDF]

それぞれの研究の詳細については、上記リンクから、論文や動画を御覧ください。

2025年5月19日 (月)

ACM CHI2025参加

2025年5月 2日 (金) 投稿者: メディア技術コース

メディア学部の加藤です。

2025年4月28日〜5月1日に横浜で開催された国際会議、ACM CHI 2025に参加してきました。
CHIは Human-Computer Interaction (HCI)の研究分野における、トップカンファレンスのひとつなのですが、
今年は 5,500人以上もの研究者が参加し、発表された論文(Full paper)も 1,249件と、過去最大の規模の会議となっていました。
20250502-164557

今回、太田・加藤研究室からは 1件のポスター発表をしました。
詳細はこちら
20250502-164912

来年、CHI 2026はスペイン・バルセロナで開催されるようです。
メディア学部からも引き続き、発表ができるよう、準備をしていこうと思います。
Img_20250501_121937

2025年5月 2日 (金)

CHI 2025 LBW発表

2025年4月30日 (水) 投稿者: メディア技術コース

メディア学部の加藤です。

4月28日より、横浜で開催されている CHI2025に参加しています。
今年は、太田・加藤研究室からは Late breaking workセッションにて 1件の発表があります(発表は 29日 (火))。
この研究は、昨年度 (2024年度)に太田・加藤研究室を卒業した、劉天鑑くんの卒業研究であり、VR空間内で日記を閲覧できるシステムを提案したものです。

スマートフォン上で日記の本文と、思い出の写真をアップロードすると、その写真に紐づけられたメタデータ(撮影日時、GPS情報など) をもとに、過去に訪れた環境(写真を撮影した場所)の VR空間が自動で生成されます。
ユーザは Meta Questなどの VRゴーグルを用いて、生成されたVR空間を閲覧することができます。
これにより、過去に訪れた環境を思い出しながら、日記を閲覧する体験を提供します。

提案システムでは、アップロードした写真の GPS情報から、Google Street Viewのパノラマ画像を取得します。
また、写真の撮影日時の情報をもとに、GAN (Generative Adversarial Network)によって、当時の環境(明るさ・天気など)を再現します。

論文は下記 URLから閲覧可能です。
https://dl.acm.org/doi/10.1145/3706599.3720170

2025年4月30日 (水)

より以前の記事一覧