バースデイクライシス4

IMG_20150806_0004

誕生日が同じだと運命の出会い、と思うが、それはどれくらいの人数の集団がいるかということに関係することは理解しやすい。365人いれば自分と同じ誕生日の人がいても不思議ではない、と思うのが人の気持ち。
でもこんな男女の出会いならなにも危機はないのだが、人数が多くなると思いもかけない心配事が出てくる。以前紹介した「直感を裏切る数学」にそって説明をしてみよう。

IMG_20150806_0006

ここで、一般的な式を求めるために、

IMG_20150806_0006 - バージョン 4

この式を次の近似式をもとに簡略化する。

IMG_20150806_0006

IMG_20150806_0007

ここまで計算したのは、誕生日が一致しない確率だから、一致する確率は
「1引く一致しない確率」であることを利用して計算する。

IMG_20150806_0007 - バージョン 2

それが、50%、2分の1を越える場合を考えと、
左の式を計算すればよい。

IMG_20150806_0007 - バージョン 3

 

ここで両辺の対数をとる。 (対数の底をeとする自然対数)

 

IMG_20150806_0008 - バージョン 2

自然対数の場合は、

log e = 1

である。
また

1/2 = 2のマイナス1乗

であることを利用して計算している。

以上のことより、23人いれば誕生日が一致する確率は5割を越えることが分かる。IMG_20150806_0008 - バージョン 2

この関係式を一般化したものが左の式である。一般にn通りある場合、およそ5割になるには左の式の値を利用すればよい。

たとえば誕生月が同じ確率は、上の式にn=12を代入して計算すればよい。結果は
約4.1で、5人いれば同じ誕生月の人がいる確率は5割ということで、これはなんなくそうかなあという実感に合う。

さて、ここまでの考え方を利用してさらに一歩すすめてみる。

ペアの数を考えてみる

A、B、C、D、E、Fの6人がいるとする。
Aをもとにペアを作ってみると、下の図のようになる。

IMG_20150806_0009

最初にABという組み合わせを考えてFまでの組み合わせを考えると、5✕6の
30通りできる。
ただAB、BAと同じ組み合わせがあるのでその分を考えると、2で割ればいいとこがわかる。
6人いれば、ペアの組み合わせが15通りあるということである。

35人いれば
35✕34➗2=595
通りあることがわかる。

595のペアがいれば、同じ誕生日の組み合わせはかなりあるのでは?と予想される。
35人では自分と同じ誕生日の人がいる確率は少なかったけれど、「誰かと誰かの誕生日が同じになる確率は高くなる」。これが「誕生日のペアが成立する確率は高い」ことの本質である。

誕生日、血液型、DNAiなど自分であることを証明するための方法はいくつもある。しかしそのデーター数が数100万単位だとすると、他人と同一視される確率は高くなっていくのではないか?そんな不安がでてくる。

他人と間違えられる危険率が100万分の1のときは?

他人との分類を精密にしていけば行くほど、エラーが出てくる確率が増えるのは予想できる。 Pitapaや銀行のカードでも、もう一度やり直してください、というエラーが出て、どうしたんだ?!と思う時があるように。
今ここで1つのペアにつき、他人受容(他人と間違えられる)確率をpとしよう。
p=1/1000000(100万分の1)のとき、

他人と間違えられない確率は、
1−p=0.999999
となり、ほとんど1だが、1よりほんの少し小さい値になる。

データの数をnとすると、ペアの数は
n(n+1)2
となる。

データベース全体で他人受容が起きない確率は、

IMG_20150806_0010

となるので、
全体で
他人受容が起きる確率は全体の1から
この式の値を引けばいいことが分かる。

IMG_20150806_0010

先ほどやったように、eを使って近似式に変形し、他人受容確率が50%をこえるのは何人の時か、同じような方法で計算してみよう。

 

IMG_20150806_0011

 

 

IMG_20150806_0011 - バージョン 2
前と同じように
両辺の自然対数をとって
考えると、

IMG_20150806_0011 - バージョン 3

 

log e = 1

1/2=2のマイナス1乗

を利用して計算する。

ここでp=1/1000000(100万分の1)を代入すると、

IMG_20150806_0012

 

 

 

となる。またnを使った式で計算すると、 IMG_20150806_0012 - バージョン 2

 

 

どちらも同じ結果が出てくる。
つまり、他人と自分が同一だと判定される確率が100万分の1であっても、

1180組ペアがあれば、同一人物であると判定されるペアが現れる確率は50%をこえる、というわけなのである。

これは大変なことである。
指紋やDNAは100%の確率で個人を特定できる、思っていたがとんでもないことなのだ。
この本によると、DNA鑑定は、DNAに含まれる全ての塩基配列を調べるわけではない。また警察白書によると同一のDNA型の出現頻度が4.7兆分の1と記されているが、和田俊憲「遺伝情報・DNA鑑定と刑事法」(慶應法学第18号(2011))という論文では「この確率を基にして、地球全体、あるいは日本全体で同一ペアが存在しない確率は極めて小さく、ほとんど0とみなせる」とある。つまり、DNA鑑定で、同一人物だと判定されるペアはほぼ確実にいるということなのだ。

実際にアメリカのメリーランド州で2007年1月に、3万人のデータの中で、他人なのにDNAの一致が実際にあったという資料も紹介されていた。
さきほどの4.7兆分の1という確率もあくまで理論的なものであり、実際にはもっと大きなものになるのかもしれない。

指紋やDNAの鑑定だけで他人と間違えられたり、事件に巻き込まれてはたまったものではない。
ブログでお世話になっている風見鶏さんから「病院では誕生日だけでなく、血液型も聞かれて本人確定をしています」とコメントがあった。
なるほど、大きな病院になればなるほどそういった工夫がいるのだと実感した。

バースデイパラドックス

私は「誕生日の確率から、危機が生じる」と感じたので、バーズデイクライシスと書いてきたが、統計の世界では「バースデイパラドックス」として以前から有名なことだそうだ。
「直感を裏切る数学」の作者の神永さんはこうしめくくっている。
「情報セキュリティの教科書には、バースデイパラドックスが必ず載っています。それには2つの意味があるでしょう。
ひとつは当然のことですが、情報セキュリティに携わる者が、絶対に理解しておかなくてはならない事実だということ。
そしてもうひとつは、日常的に数学に触れている者でさえ、正確に確率を把握するのは非常に難しいということです。
直感で「ざっくりこのくらい」と見積もるのではなく、きちんと数えあげることの重要性を示唆する話ではないでしょうか」。

単純に「誕生日が同じ人はどれくらいの確率でいるのだろう」という疑問からスタートしたが、バースデイパラドックスは統計の世界では必修のものだったのだ。
直感と実際のはざまは、思っている以上に大きな溝がある、ということがあるのだ。

 

 

 

 

バースデイクライシス3

自分と同じ誕生日の人がいる確率は?

35人の集団があるとする。自分と同じ誕生日の人がいる確率はどれくらいなのだろうか。
計算してみよう。

まず2人の場合。A(1)さんとA(2)さんがいるとする。
A(2)さんがA(1)さんの誕生日と違う確率は、

364/365

である。(一年は365日の平年として)

A(3)がやってきて、その人がA(1)さんの誕生日と違う確率はやはり

364/365

である。
A(1)さんと違っていればよいのであってA(1)さん以外の人の誕生日が同じだろうが違っていようが関係ない。したがって3人の場合でA(1)さんの誕生日と一致しない確率は、

IMG_20150801_0001 - バージョン 5

 

 

 

同様にしてA(4)さんがやってきて、この人がA(1)さんと誕生日が違う場合を考えると、やはりその確率は
364/365だから
3人の誕生日がA(1)さんと違う確率は、次のようになる。

IMG_20150801_0001 - バージョン 4

 

 

 

 

次にA(5) さんがやってきて5人の場合を考えると、その人がA(1)さんと誕生日が同じにならない確率は、364/365。

4人がA(1) さんと違う誕生日になる確率は、これまでと同様に考えて、

IMG_20150801_0001 - バージョン 7

 

となることがわかる。

 

このようにして考えると、A(2)さんからA(35)さんまでの誕生日が、A(1)さんと違っている確率( A(1)さん以外の人の誕生日は重なっても、重ならなかっても関係ない ) は、次のようになる。

IMG_20150801_0001 - バージョン 6

この計算をしてみよう。前回のように累乗を計算するサイトを利用すると、
IMG_20150801_0002

この結果は、35人のクラスでA(1)さんの誕生日と違う人がいる確率。
求めたいのは「自分と同じ誕生日の人がいる確率」だから、1から上の結果を引けばよい。

IMG_20150801_0002 - バージョン 2

約9%の確率で、自分と同じ誕生日の人がいる。逆に言えば、35人いれば91%の確率で、自分と同じ誕生日の人がいない! ということになる。

35人いれば、自分の誕生日と同じ誕生日を持つ人がいる確率は約10%、約1割しかいない、9割はいない、という結果はなんとなく実感に近い、となるのではないだろうか。

 

日付を指定してその日の誕生日の人がいる確率は

それでは35人の人がいて、1月1日生まれの人がいる確率は? のように、日付を指定してその誕生日の人がいる確率を求めてみよう。 1年が365日の平年として考えると、 1年でその日になる確率は1/365だから これまで計算してきた値に1/365を掛ければいいことになる。

IMG_20150801_000335人の学級があったとしたら、そのクラスで、例えば1月1日生まれの人がいる確率は、

0.000244 ⇒ 0.0244%

ということだから、極端に少ないことがわかるし、これも実感にちかいものだと思う。

ある集団があってそのなかで「だれでもいいから誕生日が同じ人がいる確率は?」を考え、次にその集団で「自分の誕生日と同じ人がいる確率は?」考えてきた。そして最後には「ある決まった月日の誕生日の人がいる確率」も考えてきた。

タイトルに「バースデイクライシス」としてきたが、何が「クライシス」(危機)なんだろう?
その説明は次の機会に。

 

 

 

バースデイクライシス2

同じ誕生日の確率

さて前回は、35人のクラスで同じ誕生日の人がいる確率を求める式を考えた。

IMG_20150729_0007

左がその式である。
!は階乗の計算をする、という意味で、たとえば10!(10の階乗)は、
10!=10✕9✕8✕7✕6✕5✕4✕3✕2✕1 
の計算のこと。
ここでは365の階乗だから、
365✕364✕363・・・✕2✕1
という365回の掛け算をすることになる。

いったいどれくらいの数字になるのだろう。それがこれ。

2510412867555873229292944374881202770516552026987607976687259519390110

6138220937419666018009000254169376172314360982328660708071123369979853

4453679106538723835997043555327409376780914914294408643160469250745101

3484702554601409800590796554104119549610531188617337343514551719328276

0847755882291690213539123479186274701519396808504940722607033001246328

3988005504874279998766904169734378610781853446679668715110496538881301

3683619901052918005612584454948864861768291582634756414899098413806780

9999604687488146734837340699359838791124995957584538873616661533093253

5512568450560463887381297029513811518614136889229865100054409439430146

9924411255575527914076049276425374025041039105642197900328960000000000

0000000000000000000000000000000000000000000000000000000000000000000000

000000000

この答えは, 779ケタの数で末尾に0は89個連続する。

これはインターネット上に階乗の計算をしてくれるサイトがあったのでそれを利用した。http://www.kishimo.com/math/kaijou.html

同様に365の35乗をを計算すると、

4789059755391665870080907767022554796790253476056121056776945923251332

71515369415283203125

となる。これもネット上のサイトを利用した。http://www.kishimo.com/math/ruijou.html

これらの数字を代入して紙と鉛筆で計算することは、私の力では果てしもなく時間がかかりそう。電卓でもこんな桁数の多い計算はできない。
Excelに代入しても受け付けてくれない。
ここは先人の力に頼って、その努力の結果を紹介する。

IMG_20150731_0003

 

この表は前回紹介した本「社会にも法則はあるか」(仮説社)に載せられている。
この表より、

IMG_20150731_0001

この数字を代入して計算することができる。 IMG_20150731_0002

この計算結果より、 35人いるクラス・集団では、同じ誕生日の人がいる確率は
0.8144になった。%でいうと約81.5%であることがわかる(切り上げている)。

そうすると、たいていの学級では8割の確率で同じ誕生日の人がいることになる。
へえー、そんなに高い確率だったのか、と驚く数字だ。
人数が多いほどその確率が高くなることは予想できる。
計算して表にまとめてみると(これも紹介した本の資料より)。
IMG_20150731_0003 - バージョン 240人をこえると9割の確率で同じ誕生日の人がいることが分かる。
どれくらいで5割の確率となるのだろう? 表を見ると23人を超えると確率が5割をこえている。

この表をグラフ化したものも、この本には載せられている。

IMG_20150731_0005100人では99.9999以上の確率で同じ誕生日の人がいることが予想される。つまり人が100人以上いれば、同じ誕生日の人はほぼ確実にいてるということだ。

へーっ、と驚くとともに何か腑に落ちないところがある。35人で8割だなんて……という気持ち。
実はその気持は「自分の誕生日と同じ人がいる確率」とごっちゃにしているからである。
今計算したのは「35人いれば誰か、だれでもいい、誕生日が同じ人がいる確率は8割」であって、自分の誕生日と同じ人がいる確率が8割というわけではない。

では、自分と同じ誕生日の人がいる確率はいくらほどになるのだろうか。
このことは次回に考えてみたい。

*引用した資料は、「社会にも法則はあるか 誕生日をめぐる法則」(仮説社)より。