技術

AI時代での情報検索 (2) 英語

2024年12月 6日 (金) 投稿者: メディア技術コース

技術コースの盧です.

前回はRAGのお話をしましたが,今回はその続き的な内容をお話します.

結論を先に書くと,真剣な情報検索には英語を使いましょう,とのことです.そもそも,情報の量と質,何れも日本語は英語に比べ物にならないからです.その典型的で良い比較になる例が一つあるので紹介します.

ここで例として挙げた Geri's game (Pixar, 1997) は,3Dアニメーションの歴史でかなり重要なアニメーション作品の一つです.アニメーションとしての面白さも勿論ありますが,この作品に先駆的な技術を導入した試作品としての意味が込められているから歴史的に重要な作品として扱われるわけです.

英語版の方は,全体の分量も長く,直接リンクを張っている技術(Technology)の部分だけで1ページ近くの分量が詰まっています.それに対し,日本語版は文書全部で1ページ程度の分量しかなく,内容もかなり浅いです.技術部分については,2~3行程度で軽く触れる程度で,その技術的な詳細部分も知っている人が分からない程度しか書かれていません.それなのに,トリビアとかが別途項目として独立して出ているなど,個人的には情報としてのバランス感もあまりよくないと感じます.日本語の文語は情報の圧縮率が高いとよく言われますが,資料の基本的な分量はその圧縮率を遥かに超えています.

さて,ここで以前お話したAIやRAGに戻ります.基本的にLLMに事前学習をさせる段階においても,まず英語と日本語とで資料となる文書の質が比べ物になりません.その上,情報検索しても出てくる資料もこの程度の差が出るので,生成型AIとしてもよい結果を生成するのは難しいわけです.

日々の生活に全て英語を使うのは至難でしょうし,私もそこまでは求めません.しかし,真剣な情報,特に卒研などでの情報検索は日本語という,地球規模ではローカルな言語は避けるべきかと思います.

2024年12月 6日 (金)

AI時代での情報検索 (1) RAG

2024年12月 4日 (水) 投稿者: メディア技術コース

技術コースの盧です.

ChatGPTがAIの代名詞みたくなっているような時代ですが,個人的には期待はずれの経験が多すぎて,もうChatGPTは使っていません.だと言って,私はこの類のサービスを全く使わないのか?それは違います.単純にChatGPTを使わないだけで,私も日々この類のサービスを使っています.

それで?私が何のサービスを使っているのか?こういう団体の公式ブログで直接サービスのお名前を載せると広告みたくなってしまうので敢えて実名は控えておきますが,私の主に使っているものの大枠だけ載せます.それは RAG (Retrieval-Augmented Generation) です.日本語では「検索拡張生成」とか訳されるそうです.

私はあくまで使う側の人間なので,仕組みについてそこまで詳しくありませんが軽く解説しておきます.

基本的にChatGPTみたいな最新のチャット・ボットは,裏に事前学習されたLLM(Large-Language Model)を持っており,質問をそのモデルに基づいて解釈し答えを生成してくれるような仕組みです.ここで,ChatGPTのようなLLMのみでは,答えを作る段階で事前学習されたデータにしか使えないため,構造的にいわゆる「嘘を吐く」幻覚(hallucination)現象が起きてしまいがちです.以前,どれほど使い物になるのか気になって,答えを知りながらも自分の専門の細かい内容だったり,趣味レベルでもかなり詳しい分野について質問したところ,個人的にはChatGPTの答えはもう信用できないと結論づけました.今は改善されている可能性はあると思いますが,構造的に一定水準以上の改善の余地がないのが分かっているのでもう個人的には使う意義を持ちません.

それに比べて,RAGは事前学習されたデータのみならず,裏で内容について検索を行った上,両方のデータに基づいて答えを生成してくれます.それで,基本的には下手な嘘は吐けない構造になっている訳です.なお,疑わしい結果に対しても元情報へのリンクを提供してくれてそこに辿れるわけで,出力結果への信頼性もかなり高いです.実際,いままで使ってて最終的には期待外れの答えを得た経験はあまりありませんでした.また,ちょっと意図とは違う結果が出てもすぐ修正プロムプトを入れれば良いです.基本的に結果への信頼性があるからこういう修正プロムプトを入れる甲斐があるわけです.

なので,私はChatGPTは全く使わないけど,こちらは頻繁に使っています.

2024年12月 4日 (水)

人工知能とノーベル賞

2024年11月15日 (金) 投稿者: メディア技術コース

もう、ひと月以上前の話になってしまいますが…。

10月初旬に今年のノーベル賞の発表がありました。巷では「AI祭り」とも呼ばれていたように、5つのノーベル賞のうち、2つがAI関連でした!受賞した方々の功績が素晴らしいものであることは間違いないのですが、別の意味で驚きをもって報じられました。ノーベル賞の科学関連の賞は医学生理学賞、物理学賞、化学賞の3つであり、計算機科学からはノーベル賞は取れない、といわれてました。もちろん、それぞれの分野に関連する形での受賞はこれまでもないわけではなく、今年のノーベル化学賞も本質は化学研究に対する大きな貢献があっての受賞です。それに対して、今年のノーベル物理学賞は、受賞者の一人が物理学者で着想店のひとつに物理学的考えがあったとはいえ、本質的な部分は計算機科学であるため、驚きの声が多かったように思えます。実際、受賞したジェフリー・ヒントン博士も受賞の際に驚きを隠さなかったといいます。

 

さて、今年のノーベル物理学賞の内容はというと、今の人工知能の基礎となる人工ニューラルネットワークの仕組みを作り上げたことによるものです。人工知能そのものは、人工ニューラルネットワーク以外にも様々な技術・仕組みがありますが、ここ10年で発展し注目されている人工知能の基盤は、人工ニューラルネットワークになります。人工ニューラルネットワークは人間の脳にある脳神経細胞およびそれが接続されたネットワーク構造をコンピュータ上でシミュレートしたものです。この10年での人工知能の普及・発展には欠かせない研究だったからこその受賞ということになります。個人的な感想としては、これらの発展について、同時期に多大な功績を残している日本人研究者の甘利俊一博士およびメディア学部で教鞭をとっていただいていたこともある福島邦彦博士が入っていないことが少し残念です。

 

一方、ノーベル化学賞については、人工知能を用いてタンパク質の構造を予測する、というものです。これまでは非常に難解な作業といわれていたタンパク質の構造をAIによって高精度に予測するというもので、化学や薬学の分野で非常に有効なものを作り上げました。

 

AIが実用的なツールとして使われるようになっており、今後、様々な分野で当たり前のように使われるようになるでしょう。メディア学部でも多くの研究室で、AI・機械学習・生成AIなどを用いた研究が行われています。近いうちに、情報リテラシーならぬAIリテラシーという授業を大学生だけでなく小中高生も受けるようになるかもしれません。

(メディア学部:藤澤公也)

2024年11月15日 (金)

素晴らしい社内情報システム

2024年11月11日 (月) 投稿者: メディア技術コース

 東京工科大学でも2023年度から学内システム(教職員向け)が刷新され、ペーパーレスの仕組みが導入されました。以前のブログ記事でその話題を出した際に「これまでいろんな会社に勤務したが『これぞ素晴らしい社内情報システム』というのはほとんど無かった」と言いました。
 
 今日は言ったことの回収です。数少ない素晴らしい社内システムの話をします。
 
 1995年、私は初めて外資系の会社(「シリコングラフィックス」)に転職しました。3次元CGのコンピュータシステムを売る会社で、製品開発は米国本社です。まだ一般にはPCも普及していない時代に、世界中の社員は一人一台自社製品を仕事で使っていました。PCよりもはるかに高価なワークステーション(WS)という製品です。
 
Img_7873  
 
 写真はたまたま私の手元で今も保管している機種で、1995年当時私が使っていたものとまったく同型機です。ちなみに当時の価格は1,000万円以上です。シリコングラフィックスのCG用WSが爆売れしてバブルだった時代です。
 
 正確にはバブルというより競合製品に市場で打ち勝ち寡占となった結果の爆売れです。それほど良い製品だったことは確かです。米国本社の開発チームには天才たちが多数集まっていました。彼らがそのような優れた製品を次々と出せた理由はいくつもあります。今日のテーマの「素晴らしい社内システム」はそのうちの一つです。
 
 そのシステムは簡単なことです。各社員は設定さえすれば自分のWSのデータファイルの一部(指定したフォルダの下全部)を全社員から見ることができる、という暗黙の決まりがあったのです。具体的には、"guest"というユーザIDを使えば特定フォルダ下は見たりコピーしたりは自由とする文化です。
 
 もちろん、アクセスするためにはその社員の使うWSのホスト名を知る必要があります。メールで「この製品情報はaaaa(ホスト名)にあるよ」と一人あるいは複数人に知らせることができます。そしたら
 
 rlogin guest@aaaa
 
 と命令(遠隔マシンにログイン)をタイプすれば、パスワードなしでその後はその人が使うaaaaというWSのファイルを見たり自分のWSにコピーしたりできます。あるいはファイルの遠隔コピーだけであれば、教えてもらった場所を
 
 rcp guest@aaaa:~/product/info.sc .
 
 とタイプ(遠隔コピー)すればこの1行だけで情報を自分のWSに持ってこれます。ちなみに.scというのは今のPowerPointのようなソフト("showcase")のスライドファイルです(なつかしい)。
 
 このような文化が、世界中に1万人以上いる社員間の円滑なコミュニケーションにどれだけ役立ったか計り知れません。
 
 ついでですが、各WSはそのままWebサーバーにもなっていて、各社員は自分のWebページを全社員に公開できました。これもWSのホスト名だけは知らせる必要ありましたが。
 
 ちなみにシリコングラフィックスの米国本社はシリコンバレーのMountain Viewという街にあり、キャンパスと呼んでいました。2000年以降はPCに押されて製品は衰退し、会社は倒産し消滅しました。創業者を追い出したビジネススクール出のCEOが90年代半ばに下した経営判断のミスが理由です(結果論だけど)。広大な本社キャンパス敷地は、ほぼ全部の建物もそのまま居抜きでグーグル本社が入っています。
 
メディア学部 柿本正憲

2024年11月11日 (月)

実在するバンドのバーチャルライブ(ABBA 「Voyage」)

2024年10月18日 (金) 投稿者: メディアコンテンツコース

メディア学部の三上です.

9月の授業開始直前に,企業から展示会のお招きがあり急遽ロンドンに弾丸ツアーに行きました.その際にエンタテインメント界隈で話題になっていた,アバターによるバーチャルコンサート「ABBA Voyage」を視察してきました.

ABBAは私たち(より上)の世代に絶大な人気を誇るアーティストなのですが,すでに高齢で,激しいライブを重ねるのはさすがに困難なのですが,その往年のライブをVFX制作会社として著名なIndustrial Light &Magicが制作を手掛けて実現しました.なんとしてでも見に行きたかったのですが,さすがにロンドンまでこのためだけに行くのは・・・と思っていたところでした.

さっそく,チケットを探したのですが幸い一人での視察になったので,意外といい席も取れました.(お値段はそれなりにしますが・・・)会場はロンドン郊外のオリンピック会場のそばに作られた特設のシアター.地下鉄の路線図を調べて乗り継いでいってきました.

202410abba01
シアターの外観

会場はステージ前のダンスフロア(椅子はなく上映中ずっと踊っている人の席)とアリーナ席という椅子に座って全体を眺める席がありました.私は全体の雰囲気をじっくり見たかったのでアリーナ席から参加しました.

202410abba02
シアター内部の様子

実際の映像は,高齢のメンバー超えたメンバーをモーションキャプチャーで収録,CGで制作する映像に利用しそれらをホログラムを利用して展示するという物です.
この体験は,言葉ではどうしても伝えにくいのですが,とにかく製作期間,費用,機材のスケールの大きさに驚くと同時に,今後このフォーマットで多くのイベントが開催される未来が容易に想像できました.

コンテンツにかかわる詳しいレポートはこちらを見てください

2024年10月18日 (金)

先鋭の映像制作企業とのプロモーション映像撮影

2024年10月14日 (月) 投稿者: メディアコンテンツコース

202410mpp05
LED MEGA MESHを応用した例(サッカーの選手入場に利用するイメージ)

メディア学部の三上です.

今回は少し前に,新進気鋭の映像制作会社MPLUSPLUSさんのでも映像制作に学生とともに参加したお話を紹介します.

MPLUSPLUS株式会社さんはアーティストのライブステージや,イベントの演出など,エンタテインメント分野で「テクノロジーの力で、常識を更新する」ことをモットーにしている企業です.

これまでにも「ピカチュウ大量発生チュウ!2019」第67回NHK紅白歌合戦に出場した三代目 J Soul Brothersの楽曲「Welcome to TOKYO」の演出,さらにはF1ラスベガス・グランプリ(Formula 1 Heineken Silver Las Vegas Grand Prix 2023)のオープニングセレモニーなどで,ダンサーの動きや楽曲に合わせてLED照明を点滅させたり,特別なLEDシステムを利用することで,未踏の表現を次々と実現してきました.

そんなMPLUSPLUSさんの代表である藤本実さんは,以前東京工科大学メディア学部の助手として,三上研究室に所属になり,私の研究室のほか,渡辺先生や羽田先生,太田先生たちとも多くのプロジェクトを実施してくれました.

そんな藤本さんから,新しい映像演出の可能性をアピールするためにプロモーション動画を撮影したいと相談があり,大学のキャンパスを使い学生にも参加してもらう形で実現しました.

プロモーション映像のために,ドローン撮影チームを編成し望みました.本格的な撮影機材に参加した学生たちもシステム構成や操縦方法などに興味津々でした.

202410mpp01
ドローン撮影のための機材

今回のプロモーション映像の目玉は「LED MEGA MESH」という巨大で軽量で形状が自在に変化できるLEDウォール.これに,LEDスーツを装着したダンサーとコラボレーションすることで見たこともない映像演出が実現するという仕組みです.

202410mpp03
LED MEGA MESH

202410mpp02
LEDスーツを装着したダンサー

この,LED MEGA MESHの特徴は何といっても軽量であること.LEDの点灯を制御プログラムを開発し,映像からLEDの色や点滅を遠隔制御し映像表現しています.軽量なのでドローンを使ってつかって上空を縦横無尽に映像スクリーンが飛び交う演出も実現しています.

そしてこのLED MEGA MESHの軽量である最大の特徴を生かし,今回は人が運ぶという演出にも挑戦しました.

202410mpp04
LED MEGA MESHをもって移動する様子

LEDメッシュは透過するため,ディスプレイの奥にディスプレイが見えるという変わった表現も可能です.この研究棟Aから研究所棟に降りてくる坂を使った演出では,LEDディスプレイの奥に別の映像が透過して見える様子が良く伝わります.

 

このように未踏の技術を実現し,その魅力をでも映像を通じて多くの人に届けるための映像制作は,いつも新鮮は発見や驚きの連続です.撮影に参加した学生たちも,自分の研究や作品制作にあたり,新しい発想をどのように具現化していくのか,多くのことを学ぶことができたのではと思います.

完成した作品はMPLUSPLUSさんのWebページYoutubeなどで公開されております.

 

 

 

 

 

2024年10月14日 (月)

ACM CHI2024参加

2024年7月10日 (水) 投稿者: メディア技術コース

メディア学部・技術コースの加藤です。

先月、5月10〜18日の間、国際学会ACM CHI2024に参加するためにハワイ出張に行きました。

ヒューマン・コンピュータ・インタラクション(HCI)の研究分野において最も規模が大きく、権威のある国際学会です。

20240604-00216

今回、LINEヤフー研究所、お茶の水女子大学、東京大学との共同研究 FoodSkinという研究の口頭発表をしてきました。

ACM CHIという学会ですが、なんと来年は日本(横浜)にて開催されます!https://chi2025.acm.org/

せっかくなので来年は学生を連れて行きたいなぁ。

 

Kunihiro Kato*, Kaori Ikematsu*, Hiromi Nakamura, Hinako Suzaki, and Yuki Igarashi. FoodSkin: Fabricating Edible Gold Leaf Circuits on Food Surfaces. In Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (CHI'24), Article No.358, pp.1–17, (2024). (*joint first authors) [DOI] [Video] [Presentation Video]

2024年7月10日 (水)

情報システムにおけるストックホルム症候群

2024年7月 8日 (月) 投稿者: メディア技術コース

 企業や学校などあらゆる組織で情報システム(近年のバズワードで言うとDX)が活用されるようになりました。東京工科大学でも遅ればせながら2023年度からペーパーレスが実現され、教職員の物品購入や出張外出経費精算をPCだけで行えるようになりました。以前は紙に書いて(またはPCで印刷して)捺印して提出だったのを変えたのはたいへん素晴らしいことです。
 
 とは言え、今回の学内のシステムはお世辞にも素晴らしいとは言えない代物でした。いろいろ細かい文句を言うとたぶん100個ぐらいこのブログ記事が書けます。ただ、そのようなシステムは珍しいことではないです(だからそれで良いとは思いませんが)。私はこれまで大企業、ベンチャー企業、外資系企業、大学で勤務してきましたが、これぞ素晴らしい出来栄えの社内ITシステムだ、というものは皆無ではないもののほとんどありません。
 
 話を新しい学内システムに戻すと、ほかの多くの教員と同様、私も使い方がわからなくなると事務局の担当部門に内線電話で質問します。操作方法を逐一指示してもらい、それで解決します。担当の事務の方々はいやな態度を微塵にも出さずていねいに対応して下さり、頭の下がる思いです。
 
 一度操作方法がうまく行けば、その途中状態を保存しておき(保存できます)あとで再利用すればいい、という誘惑にかられます。事務の担当者と話すと、それはやらない方がいい、とおっしゃいます。なぜか。それは、面倒でも操作を何回も繰り返す方が結局ちゃんと身に付くからです。
 
 確かに、このような社内申請は同じ種類で中身が異なるものを何度も繰り返し行います。そうすれば、まるでジャングルのような込み入ったところでもいつも同じ場所を通るうちにやがて進み方を憶えて速く進めるのと同様、事務作業は効率よくできるようになります。初めて行う操作でわからないときは電話で尋ね、二度目からは忘れた場合でもマニュアルのどこを読めばいいかわかるので何とかなります。
 
 習うより慣れろ、という何ともアナログな昭和な感じのやり方ですが、使うシステムに文句をいうよりもさっさと身に付けるのが得策です(ついでにこのようなブログネタを一個増やしてくれたのだからそれもお得でした)。
 
 もしかしたらこのシステムを提供した会社はそこまでちゃんと見越してジャングルのようなソフトを開発したのかもしれません。皮肉ではなく本当にそう思います。事実そのシステムは長年多くの企業で採用されているようです。
 
 事務の方も言われていましたが、慣れて行けばだんだん負荷も少なくなっていくのでそれはそれでいいですよとのことです。私はまるで「ストックホルム症候群」のようですね、と申し上げました。ストックホルム症候群をその方はご存じなかったので、ぜひ今すぐ検索してみてくださいね、と言って長い電話を切りました。
 
 ちなみに最初のほうで言及した「これぞ素晴らしい出来栄えの社内システム」の一例はまたの機会でご紹介します。
 
メディア学部 柿本正憲

2024年7月 8日 (月)

点群データの問題と見せかけて透視投影の問題(続き)

2024年5月31日 (金) 投稿者: メディア技術コース

 前回記事の続きです。
 
 実世界を計測してxyz座標を得た点群データに対し、これを直接CG画像として描画する研究事例を授業で紹介しました。
 
 1_20240521164801
 
 この画像を見ると描画時の視点に近い方は点群がまばらに分布しています。一方遠くの方は密に分布し、画面上で一定サイズに設定した円盤状の点はすき間なく描画されています。なぜそのように見えてしまうのか、という問題でした。
 
 レーザーを照射した計測点の位置に対して、描画時の仮想視点が前方にありその視野角が計測時の視野角より大きいから、というのがその答えです。これを図示して考えてみます。
 
 Photo_20240521174101
 
 左の図のうち、白く描いたのはレーザー計測時のレーザー光線です。一定範囲の視野角の中で多数のレーザー光を照射しますがここでは6本だけ模式的に示しています。赤く描いたのは描画時に設定したカメラ(視点)位置から視界が拡がる様子です。長短の水平線は視界を区切るために設定する必要のあるクリッピング面です。
 
 右の図は描画時にシステムが実行する投影変換(透視投影)の結果です。ちょうど左図の視界の台形(逆台形)部分が正方形になるような空間の変換が行われます(もちろん実際には3次元空間でのことで、台形は四錐台に、正方形は立方体になります)。左の赤い線は「カメラ座標系」での視界で、右の赤い四角は「正規化デバイス座標系」(あるいはクリッピング座標系)での視界です。
 
 正規化デバイス座標系の図に付記した小さな矢印は視点からの視線の向きです。視点に近い方ではレーザー光線の間隔が大きく、遠い方ではその間隔が小さいことがわかります。
 
 各点群は必ずどれか1本のレーザー光線上の1点に位置します。視点からの距離によってレーザー光線の分布間隔が狭くなっていくことが、近くの点群はまばらに見え遠くの点群が密に見える理由です。
 
 点群の性質に関する問題のように見えて実は透視投影を理解しているかを判定することができる問題です。研究としての意味は薄いですが、3次元CG技術の教育上はたいへん興味深い問題と言えます。
 
メディア学部 柿本正憲

2024年5月31日 (金)

点群データの問題と見せかけて透視投影の問題

2024年5月29日 (水) 投稿者: メディア技術コース

 メディア学部3年次前期の専門科目「3次元コンピュータグラフィックス論」では毎週の授業で事前に履修生から質問を募り、授業時間ではその回答に時間を割いています。その質問の中で面白いトピックがあったので紹介します。
 
 その日の授業テーマは「モデリングシステム」です。その中で実物を直接計測してCGモデルを作成する技術をいくつか紹介しました。計測した点群情報を直接CG表示する事例として、メディア学部の演習講師でもある渡邉賢悟先生の研究を紹介しました。以下はそのスライドです。
 
 1_20240521164801
 
 これに対して次のような質問がありました。
 
『画像を見ると、端の方が中心に比べて点群の間隔が広くなっているように見えるのですが、レーザー計測には近い距離ほど計測しづらいという特徴があるのでしょうか?』
 
 私の回答は以下の通りです。
 
--------------------------
 いいえ。
 
 計測点から一定間隔でレーザー照射向きの角度を変えながら計測します。むしろ遠くなるほど範囲が拡がり点群の間隔も広くなります。
 
 ではなぜ近い所がまばらになって見えるのか。ちょっと考えてみてください。
 
 これがわかった人は空間把握と分析の感覚が鋭いと思います。
 
 私も考え付くのに少し時間がかかりました。その理由はおそらく「計測した際のレーザー発生点よりも描画の際の視点がより前方にあり視野角も広いから」だと思います。描画時の視点に近い場所はより強く拡大され、結果的にまばらに見えてしまうのでしょう。
 
 授業中に板書で図示して説明します。
 
 この質問は、点群に関する知識や性質を問うというより、透視投影を理解しているかを問うクイズのようなものですね。興味深いです。
--------------------------
 
 長くなりますのでこれの解説は次回とします。
 
メディア学部 柿本正憲

2024年5月29日 (水)

より以前の記事一覧