« 来週開催!ADADA2020 | トップページ | 「International Game Jam Project」(中国吉林動画学院とのプロジェクト) »

統計の落とし穴

2020年12月 9日 (水) 投稿者: メディアコンテンツコース

最近、いろいろなニュース番組やインターネットサイトで、数値の情報を見ることが多くなりました。新型コロナウィルス関連では、感染者数、重症者数、死者数など、毎日のように報道されています。そのような数値データを解析するときによく用いられる方法として、統計があります。今日は、統計に関する面白い動画(https://www.youtube.com/watch?v=sxYrzzy3cq8)から、1つその例を紹介します。

ある年を取った親戚の手術のため2つの病院から1つの病院を選ばなければいけないとします。直近1000人の患者のうち、Aという病院は900人、Bという病院は800人が生存していたとします。どちらの病院を選びますか?

ここまでの情報だと、病院Aを選ぶ人がほとんどかと思います。では、本当に病院Aの方がよいのでしょうか?

例えば、病院に入院する時点で軽症だった場合、生存する確率は高くなりますし、入院した時点で重症であった場合は、軽症の場合よりも生存確率は下がります。先ほどの2つの病院の重症者が、病院Aが100人中30人が生存していて、病院Bが400人中210人生存していたとするとどうでしょうか?病院Aの重症者の生存確率は30/100=30%、病院Bは210/400=52.5%なので、重症者は病院Bに行った方がよくなります。軽症者も考えてみると、病院Aの生存率は870/900≒96.7%、病院Bは590/600≒98.3%となり、こちらも病院Bの方がよくなります。

どういうことでしょうか?

これは、シンプソンのパラドックスと呼ばれ、全体で見た解釈と、部分的に見た解釈が矛盾する事例を指します。
実は数学的に考えると、A/B > a/b かつ C/D > c/d であるときに、(A+C)/(B+D) > (a+c)/(b+d) が必ずしも成り立たないことから、この現象が起きることは不思議ではないことがわかります。

先ほどの例は、あくまでどちらの病院の生存率が高いかという比較をしているにすぎず、病院Bに行ったから助かったのかどうかはわかりません。このような不思議な現象が起きるのは、病院と生存率の相関関係を、その病院にいった「から」治ったという因果関係として解釈してしまっているのが原因です。

現在、たくさんの情報が報道されていますが、それらの右往左往しないためにも、どのようなデータをどのように解釈しているのかを注意深くみて、その真意を見極める力が必要です。

(文責:竹島)

« 来週開催!ADADA2020 | トップページ | 「International Game Jam Project」(中国吉林動画学院とのプロジェクト) »