バースデイクライシス4

IMG_20150806_0004

誕生日が同じだと運命の出会い、と思うが、それはどれくらいの人数の集団がいるかということに関係することは理解しやすい。365人いれば自分と同じ誕生日の人がいても不思議ではない、と思うのが人の気持ち。
でもこんな男女の出会いならなにも危機はないのだが、人数が多くなると思いもかけない心配事が出てくる。以前紹介した「直感を裏切る数学」にそって説明をしてみよう。

IMG_20150806_0006

ここで、一般的な式を求めるために、

IMG_20150806_0006 - バージョン 4

この式を次の近似式をもとに簡略化する。

IMG_20150806_0006

IMG_20150806_0007

ここまで計算したのは、誕生日が一致しない確率だから、一致する確率は
「1引く一致しない確率」であることを利用して計算する。

IMG_20150806_0007 - バージョン 2

それが、50%、2分の1を越える場合を考えと、
左の式を計算すればよい。

IMG_20150806_0007 - バージョン 3

 

ここで両辺の対数をとる。 (対数の底をeとする自然対数)

 

IMG_20150806_0008 - バージョン 2

自然対数の場合は、

log e = 1

である。
また

1/2 = 2のマイナス1乗

であることを利用して計算している。

以上のことより、23人いれば誕生日が一致する確率は5割を越えることが分かる。IMG_20150806_0008 - バージョン 2

この関係式を一般化したものが左の式である。一般にn通りある場合、およそ5割になるには左の式の値を利用すればよい。

たとえば誕生月が同じ確率は、上の式にn=12を代入して計算すればよい。結果は
約4.1で、5人いれば同じ誕生月の人がいる確率は5割ということで、これはなんなくそうかなあという実感に合う。

さて、ここまでの考え方を利用してさらに一歩すすめてみる。

ペアの数を考えてみる

A、B、C、D、E、Fの6人がいるとする。
Aをもとにペアを作ってみると、下の図のようになる。

IMG_20150806_0009

最初にABという組み合わせを考えてFまでの組み合わせを考えると、5✕6の
30通りできる。
ただAB、BAと同じ組み合わせがあるのでその分を考えると、2で割ればいいとこがわかる。
6人いれば、ペアの組み合わせが15通りあるということである。

35人いれば
35✕34➗2=595
通りあることがわかる。

595のペアがいれば、同じ誕生日の組み合わせはかなりあるのでは?と予想される。
35人では自分と同じ誕生日の人がいる確率は少なかったけれど、「誰かと誰かの誕生日が同じになる確率は高くなる」。これが「誕生日のペアが成立する確率は高い」ことの本質である。

誕生日、血液型、DNAiなど自分であることを証明するための方法はいくつもある。しかしそのデーター数が数100万単位だとすると、他人と同一視される確率は高くなっていくのではないか?そんな不安がでてくる。

他人と間違えられる危険率が100万分の1のときは?

他人との分類を精密にしていけば行くほど、エラーが出てくる確率が増えるのは予想できる。 Pitapaや銀行のカードでも、もう一度やり直してください、というエラーが出て、どうしたんだ?!と思う時があるように。
今ここで1つのペアにつき、他人受容(他人と間違えられる)確率をpとしよう。
p=1/1000000(100万分の1)のとき、

他人と間違えられない確率は、
1−p=0.999999
となり、ほとんど1だが、1よりほんの少し小さい値になる。

データの数をnとすると、ペアの数は
n(n+1)2
となる。

データベース全体で他人受容が起きない確率は、

IMG_20150806_0010

となるので、
全体で
他人受容が起きる確率は全体の1から
この式の値を引けばいいことが分かる。

IMG_20150806_0010

先ほどやったように、eを使って近似式に変形し、他人受容確率が50%をこえるのは何人の時か、同じような方法で計算してみよう。

 

IMG_20150806_0011

 

 

IMG_20150806_0011 - バージョン 2
前と同じように
両辺の自然対数をとって
考えると、

IMG_20150806_0011 - バージョン 3

 

log e = 1

1/2=2のマイナス1乗

を利用して計算する。

ここでp=1/1000000(100万分の1)を代入すると、

IMG_20150806_0012

 

 

 

となる。またnを使った式で計算すると、 IMG_20150806_0012 - バージョン 2

 

 

どちらも同じ結果が出てくる。
つまり、他人と自分が同一だと判定される確率が100万分の1であっても、

1180組ペアがあれば、同一人物であると判定されるペアが現れる確率は50%をこえる、というわけなのである。

これは大変なことである。
指紋やDNAは100%の確率で個人を特定できる、思っていたがとんでもないことなのだ。
この本によると、DNA鑑定は、DNAに含まれる全ての塩基配列を調べるわけではない。また警察白書によると同一のDNA型の出現頻度が4.7兆分の1と記されているが、和田俊憲「遺伝情報・DNA鑑定と刑事法」(慶應法学第18号(2011))という論文では「この確率を基にして、地球全体、あるいは日本全体で同一ペアが存在しない確率は極めて小さく、ほとんど0とみなせる」とある。つまり、DNA鑑定で、同一人物だと判定されるペアはほぼ確実にいるということなのだ。

実際にアメリカのメリーランド州で2007年1月に、3万人のデータの中で、他人なのにDNAの一致が実際にあったという資料も紹介されていた。
さきほどの4.7兆分の1という確率もあくまで理論的なものであり、実際にはもっと大きなものになるのかもしれない。

指紋やDNAの鑑定だけで他人と間違えられたり、事件に巻き込まれてはたまったものではない。
ブログでお世話になっている風見鶏さんから「病院では誕生日だけでなく、血液型も聞かれて本人確定をしています」とコメントがあった。
なるほど、大きな病院になればなるほどそういった工夫がいるのだと実感した。

バースデイパラドックス

私は「誕生日の確率から、危機が生じる」と感じたので、バーズデイクライシスと書いてきたが、統計の世界では「バースデイパラドックス」として以前から有名なことだそうだ。
「直感を裏切る数学」の作者の神永さんはこうしめくくっている。
「情報セキュリティの教科書には、バースデイパラドックスが必ず載っています。それには2つの意味があるでしょう。
ひとつは当然のことですが、情報セキュリティに携わる者が、絶対に理解しておかなくてはならない事実だということ。
そしてもうひとつは、日常的に数学に触れている者でさえ、正確に確率を把握するのは非常に難しいということです。
直感で「ざっくりこのくらい」と見積もるのではなく、きちんと数えあげることの重要性を示唆する話ではないでしょうか」。

単純に「誕生日が同じ人はどれくらいの確率でいるのだろう」という疑問からスタートしたが、バースデイパラドックスは統計の世界では必修のものだったのだ。
直感と実際のはざまは、思っている以上に大きな溝がある、ということがあるのだ。

 

 

 

 

バースディクライシス1

誕生日が同じ人

沢山の人数がおさめられている名簿を整理していると気がつくことがある。
「あれ、この人とこの人、同じ誕生日だなあ。」
それが思った以上にあったりして、珍しいことのもあるもんだなあ、と思っていた。
しかし調べ見ると、結構な確率であるんことがわかった。
参考になったのが次の二冊の本。

「直感を裏切る数学」(ブルーバックス 神永正博著)
「社会にも法則はあるか」(仮設社 長岡清 板倉聖宣)

 

 

一つ目は以前に紹介した「直感を裏切る数学」(ブルーバックス)。ここには「恐怖の誕生日」という章で紹介されている。

もう一つ目は仮説社の「社会にも法則はあるか」という本で、サブタイトルが「誕生日をめぐる法則」とある。
この二冊を読んで、私が理解したことをここに紹介してみよう。

では仮説実験授業風に選択肢のある問題をどうぞ。

クラスの人数が35〜45人の場合で考えます。同じクラスの中に同じ誕生日の人がいる確率はどれくらいだとおもいますか。 ここでは一つのクラスを考えましたが、クラスでなくてもかまいません。会議で35人〜45人位の人が集まっている場面を想像してもかまいません。

<予想>

ア、ほとんどない。あっても10クラスあればその中の1クラスか2クラスぐらい。つまり1〜2割位だと思う。

イ、半分ぐらいのクラスには「同じ誕生日の人がいる」と思う。つまり5割、確率1/2ぐらい。

ウ、たいていのクラスには「誕生日が同じ人」がいると思う。確率は8〜9割ぐらい。

さて、ア、イ、ウのどれを選択しようか。アかイかな?と思うが、、、。

確率という言葉が出てくると、何かややこしそうな気がして、考えるのが嫌になってきそう。どんなふうに考えればいいのだろう。どちらの本も丁寧に解説されているが、考え方の結論だけを書いてみると、

全ての場合の数から、全員の誕生日が違う場合の数を引けばよい。それが「誕生日が同じ」場合の数である。 
準備運動、まず3人の誕生月で考えてみよう。

Aさん、Bさん、Cさんという三人がいる場合を考える。
Aさんがとれる誕生月は1月から12月の12通り。
①Aさんが1月生まれだったらBさんは2月から12月の11通り。
②Aさんが2月生まれだったらBさんは1月、3月〜12月の11通り、
③Aさんが3月生まれだったらBさんは、1月、2月、4月〜12月の11通り。
・・・・・
⑫Aさんが12月生まれだったらBさんは、1月〜11月の11通り。
つまり、Aさんが12通りの誕生月それぞれにBさんは11通りの誕生月になる。

ここにCさんを考えると、
①Aさんが1月生まれで、Bさんが2月生まれだとCさんは3月〜12月の10通り。
②Aさんが1月生まれで、Bさんが3月生まれだとCさんは2月、4月〜12月の10通り。
③Aさんが1月生まれで、Bさんが4月生まれだとCさんは2月3月、5月〜12月の10通り
・・・・
⑫Aさんが1月生まれで、Bさんが12月生まれだとCさんは2月〜11月の10通り。
つまりAさんが1月と固定した時、Bさんは2月から11月の11通りが選択でき、CさんはBさんが11通りとるその月ごとに10通り選択できることになる。
全部の場合を考えると、Aさんが1月から12月までの12通りを選択するわけだから、AさんBさんCさんが取る場合の数は、

12✕11✕10

となる。

図で表すと、

IMG_20150729_0003

さて、今考えたのは、AさんBさんCさんの誕生月が違っている場合の数。
次にAさん、Bさん、Cさん3人の誕生日が同じであろうと違っていようと関係なく、全ての場合の数を考えると、

Aさんは12通り、
BさんはAさんに関係なく
12通り、
CさんもAさんやBさんに関係なく12通りとなる。
従って全ての誕生月の場合の数は、
12✕12✕12
となる。

さて問題は「同じ誕生月の場合の数」。これは先に結論を書いたが、

「全ての場合の数−3人の誕生月が違う場合の数」
すなわち、

12✕12✕12−12✕11✕10=1728−1320=408

そして確率の計算は全体の数で割ればいいから、

408÷1728✕100=23.61(%)

3人の場合、同じ誕生月である確率は約24%(四捨五入して)となる。

では35人の誕生日で考えてみよう

35人の全ての誕生日が同じ場合でない、数を数えてみよう。

上の場合から考えて、今度は誕生日だからスタートは365通りからはじまることが分かる。そして1つずつ場合の数が減っていき、全体で35通り減っていくので、

365✕364✕363✕・・・・✕(365−33)✕(365−34)

となる。

一方、35人の誕生日の場合の数は365を35回掛け算した数になる。すなわち、

IMG_20150730_0001

 

同じ誕生日の人がいる場合の数は、全体の数から誕生日が同じでない数を引けばいいので、

IMG_20150729_0006そして、35人の中で、同じ誕生日の人がいる確率は、 全体の数で割ればよい。

IMG_20150729_0006 - バージョン 5

 

365✕364✕363✕・・・✕2✕1という形、つまり階乗(!が階乗を表すと高校の数学で習ったと思う)の形式で整理すると、

IMG_20150729_0006 - バージョン 4これで形がスッキリとした。 先に求めた確率の式にこの式を代入すると、

IMG_20150729_0006 - バージョン 3

 

となる。 もう少し形を綺麗にすると、

IMG_20150729_0007

ここまで計算式を求めると、後は計算するだけだが、階乗の計算値が半端な数ではない。

実際どういう結果なるのかは、次回に説明したい。
今日はここまで、ご苦労さまでした。

 

 

ダーツの平均値は?

IMG_6739

IMG_6745

ここは環状線・地下鉄「玉造」が最寄りの駅になるビリヤードとダーツのお店「セクションエイト」。
私は初めてといっていいぐらい、ダーツもビリヤードもしたことがない。やったことはあるが遥か遠い昔の記憶。
このセクションエイトのオーナーの夫人が、仕事仲間だったということで、その仲間たちと訪れた。道路に面している二面がガラス張りという、大変開放感のあるお店。
土曜日の午後に訪れたが、中高年の人たちがビリヤードを楽しみ、若者のグループがダーツに興じていた。
さて、せっかくダーツをするのだからちょっと勉強になることを、と思っていたら前回紹介した本、「直感を裏切る数学」にダーツの事が書いてあった。本を元に勉強したことを紹介してみよう。

ダーツといえば上の写真や下の絵のようにダーツボードに刺さった矢の位置で得点が決まる。

IMG_20150616_0001 - バージョン 2 IMG_20150616_0001 - バージョン 3

ダーツボードに当たった点だけを考えることにする。線の上でも当たったと考える。
そこでダーツが中心からどの方向に外れたかを見ることにする。

IMG_20150616_0001

左の図のように、中心とダーツが当たった場所を通る直線を引いて、図のような垂直線に交わる横軸までの距離(高さ)をxとして記録していく。
このとき、xの値がマイナス無限大からプラス無限大までにする、というのがポイントになる。
100回のシュミレーションの結果をヒストグラムにしたものが次の図。

IMG_20150616_0002

 

ヒストグラムというのは、この場合では、横軸にxの範囲を20ずつまとめた区切りを入れ、縦軸にその範囲におさまった回数をとったグラフのこと。

このグラフを見てみると、xが0の近くに来ることが多いように見える。
ただ160付近に極端に離れた場所にグラフの山があることに注意しておこう。

 

IMG_20150616_0002 - バージョン 2

実は本当の分布については、理論的にわかっていて、左のようなグラフになる。左右対称で、0の近くに大きな山ができている。
統計でよくみる正規分布によく似ているが違う。
この分布は、発見者の名前をとって「コーシー分布」と呼ばれているもの。
「すそ野」が高さの違いに着目しておこう。

 

IMG_20150616_0004

正規分布なら平均は0、となるが、実はコーシー分布には「平均が存在しない」のである。
ダーツを投げる実験をさらに続けることにする。

IMG_20150616_0003

1000回投げる場合をシュミレーションしてみると、
0に近づくような動きも見られるが、ときどきドーンと下がるような動きがあって、0から大きくはずれる場合が観測される。
私もダーツを投げると、ときどき思いもかけずに投げ損じて、ダーツボードから外れてしまったことが何回かあった。これである、この動きが平均0を大きく引き下げていると考えられる。

サイコロを何千回なげると、それは平均してみると同じ数字がでる確率が六分の一、という場合と全く違った事象なのである。
極端に0から外れた値が出るのが、それほど稀ではない」というのがコーシー分布の特徴と言われている。
「標本平均は、標本の大きさが大きくなればなるほど真の平均に近づいてくる」という大数の法則があるが、ダーツの場合は成り立たないのである。
大数の法則が成り立つには、大きな前提がある。それは「真の平均が存在する」という前提があってのことである。ところがダーツの分布にはこの前提がないのである。

コーシー分布の典型的な例としてあげられるのが「ガラスの破片」である。

「岩石に衝撃を与えて粉砕するとその破片の大きさの分布はべき級数になることが知られています(注 コーシー分布もべき級数である)。ガラスのコップを固い床に落として割った時にできる破片も同じです。大きな破片はほんの数個で、中くらいの破片はかなりの数になり、小さな破片は無数にあります。眼に見えないような小さな破片の数はさらに多くて、顕微鏡で拡大してみても同じような分布が観察されます。顕微鏡でも見えないくらいのホコリのような破片の数が最も多いので、1つずつの破片の大きさの平均値を求めると、事実上ゼロになってしまうのです。破片の大きさの標準偏差を計算すると、今度は少数の大きな破片の寄与が無視できなくなり、非常に大きな値になります。何桁も大きさの違う破片が混在しているから、ゆらぎの幅を表す標準偏差が大きな値になるのは当然といえるでしょう(「経済物理学の発見」より)。」

ときどき出現する極端な例が、標本平均を大きく変えてしまうのがコーシー分布の特徴なのだ。
地震の発生も平均で計算することはできない、経済の株価の動きも平均によって予測することができない。この世の中の実際の世界は、標準偏差で平均値が求められるような世界ではなくて、コーシー分布で表されるダーツの世界がこの世の中を表しているのかもしれない。

明るくて健康的なビリヤードとダーツのお店「セクションエイト」のオーナーと、若くて美人のオーナー夫人の親切な指導で、ビリヤードとダーツの腕が上がりそうな予感。でもこの予感もコーシー分布かもしれないなあ。