« X線CTにおける諸問題 その2 | トップページ | 外国語のライティング学習サイト「Lang-8」の紹介 »

f X→Y(その2)

|

面白メディア学「データから社会経済の動きを探る技術」シリーズ、前回は「f : XY ?」と題して、データ項目間の対応関係を考えてみた。今回は、この対応関係を、毎度おなじみ、代数的会計記述言語AADL(Algebraic Accounting Description Language)で展開する方法を紹介しよう。

AADLで処理されるデータは、4項の基底からなる交換代数形で実装されていることは、これまで繰り返し紹介してきた通りである。4項の基底とは、nameunittimesubjectで、AADLのデータは、この基底によって、誰が、何を、いつ、どのような単位で、という属性を可視化しながら、処理される。そして、データ項目の集計、按分を行うために、ExTransferというデータ形で、4項の各基底に対して項目間の対応関係を定義することができる。

ここでは、一つの基底、例えばname基底に限定して、以下の生鮮食品の品目集合を上位の分類概念に集計按分する加工例で、項目集合間対応について考えてみよう。いま、

生鮮品目集合:X={リンゴ、ミカン、キャベツ、トマト、アボカド}

上位分類集合:Y={野菜、果物、肉類}

として両集合間の対応関係を考えよう。例えばベース集合XYそれぞれの部分集合族を、

(X, SX)={ {リンゴ , ミカン} , {キャベツ, トマト, アボカド}, {トマト, アボカド}}

(Y, SY)={{野菜} , {果物} , {肉類}}

と定義すれば、当該部分集合族間において必要なすべての対応関係が定義できることに注意しよう。例えば、トマト、アボカドを(分類上の定義はともかく) {野菜} {果物}のいずれの上位分類にも対応させるためには以下のように部分族を定義する。トマト、 アボカドは、まずキャベツとともに{キャベツ, トマト, アボカド}として上位分類の{野菜}に、また{トマト, アボカド}として{果物}にそれぞれに按分・対応させ、他の品目とともに集計される対応関係を定義すればよい。さらに、下記の対応関係では、肉類の原統計(原像)は欠損値であることを表している(1)

 

1

1は食料品品目を上位品目へ変換するための対応表の例である。AADLでこの対応表を利用するためには、EXCELなどの表計算ソフトを利用して作成し、CSVファイルとして保存すればよい。振替変換対応表:ExTransferでは、各データに対して、

(1)変換元の基底:from_name, from_unit, from_time, from_subject

(2)変換先の基底:to_name, to_unit, to_time, to_subject

(3)属性:attribute

(4)値:value

が定義される。例えば、name基底が、『キャベツ』、『トマト』のデータに対しては、『野菜』という上位品目に対応させ、かつ、その比率は1(attribute = ”multiply”, value = ”1”)と定義されている。attribute = ”multiply”, value = ”1”等の属性指定は、按分処理の時に有効である。例えばアボカドを果物と野菜にそれぞれ0.70.3で割り当てるなどが可能になる。AADLでは、処理すべき交換代数データの集合に、事前に定義された対応表ExTransferを作用させることで、一括した項目対応処理を行うことができる。ちなみに対応関係の記述されていない、name基底以外の3つの基底に関しては、ワイルドカードとして、元の交換代数データ集合の項目が変換後もそのまま保存される。

 

1

 

さて、対応表ExTransferには、データ編集を行う上でもう一つ便利な使い方がある。例えば、上の表で定義された対応関係において、野菜という上位品目に分類される農産物にはどのような種類があるか、その集合(原像)を特定する機能である。いわば、逆対応f -1: YXを実装した機能である。この場合、

f -1 ({野菜}) = {キャベツ,トマト,アボカド}

となる。果物に分類される農産物は、

f -1 ({果物}) = {ミカン,リンゴ,トマト,アボカド}

であり、両者を合わせた{野菜,果物}という品目の集合に分類される農産物は、

f -1 ({野菜,果物}) = {ミカン,リンゴ, キャベツ,トマト,アボカド}

である。

もちろん対応関係として、f : XYとなる集合を特定する機能も実装されている。例えば、{トマト,アボカド}は、

f ({トマト,アボカド}) = {野菜,果物}

である。

さて、これまで12回にわたり、面白メディア学「データから社会経済の動きを探る技術」シリーズを連載してきた。今や、ビッグデータの時代になってデータの捕捉、分析には画期的な技術が実用化されつつある。一方、取得されたデータの編集技術の基本は、属性の管理、分類項目間の変換、そして基本的な計算である。今回のシリーズで、AADL(代数的会計記述言語:Algebraic Accounting Description Language)によって、巨大なデータ編集でも、直感的に、かつ可視的に設計できることが実感していただけたのであれば幸いである。「データから社会経済の動きを探る技術」シリーズ基礎編は、今回をもってひとまず終了としたい。ご愛読、ありがとうございました。

(メディア学部 榊俊吾)

おもしろメディア学」カテゴリの記事

« X線CTにおける諸問題 その2 | トップページ | 外国語のライティング学習サイト「Lang-8」の紹介 »