AI時代での情報検索 (2) 英語
2024年12月 6日 (金) 投稿者: メディア技術コース
技術コースの盧です.
前回はRAGのお話をしましたが,今回はその続き的な内容をお話します.
結論を先に書くと,真剣な情報検索には英語を使いましょう,とのことです.そもそも,情報の量と質,何れも日本語は英語に比べ物にならないからです.その典型的で良い比較になる例が一つあるので紹介します.
ここで例として挙げた Geri's game (Pixar, 1997) は,3Dアニメーションの歴史でかなり重要なアニメーション作品の一つです.アニメーションとしての面白さも勿論ありますが,この作品に先駆的な技術を導入した試作品としての意味が込められているから歴史的に重要な作品として扱われるわけです.
英語版の方は,全体の分量も長く,直接リンクを張っている技術(Technology)の部分だけで1ページ近くの分量が詰まっています.それに対し,日本語版は文書全部で1ページ程度の分量しかなく,内容もかなり浅いです.技術部分については,2~3行程度で軽く触れる程度で,その技術的な詳細部分も知っている人が分からない程度しか書かれていません.それなのに,トリビアとかが別途項目として独立して出ているなど,個人的には情報としてのバランス感もあまりよくないと感じます.日本語の文語は情報の圧縮率が高いとよく言われますが,資料の基本的な分量はその圧縮率を遥かに超えています.
さて,ここで以前お話したAIやRAGに戻ります.基本的にLLMに事前学習をさせる段階においても,まず英語と日本語とで資料となる文書の質が比べ物になりません.その上,情報検索しても出てくる資料もこの程度の差が出るので,生成型AIとしてもよい結果を生成するのは難しいわけです.
日々の生活に全て英語を使うのは至難でしょうし,私もそこまでは求めません.しかし,真剣な情報,特に卒研などでの情報検索は日本語という,地球規模ではローカルな言語は避けるべきかと思います.
「雑感」カテゴリの記事
- ランニングマシンもインタラクティブな時代に(2019.03.02)
- 映画鑑賞(2019.02.21)
- 転ばぬ先の....(2019.02.19)
- 論文を書くためのソフトウェア(2019.02.18)
- 3学年合同で最終発表してみた(2019.02.17)