バースデイクライシス4

IMG_20150806_0004

誕生日が同じだと運命の出会い、と思うが、それはどれくらいの人数の集団がいるかということに関係することは理解しやすい。365人いれば自分と同じ誕生日の人がいても不思議ではない、と思うのが人の気持ち。
でもこんな男女の出会いならなにも危機はないのだが、人数が多くなると思いもかけない心配事が出てくる。以前紹介した「直感を裏切る数学」にそって説明をしてみよう。

IMG_20150806_0006

ここで、一般的な式を求めるために、

IMG_20150806_0006 - バージョン 4

この式を次の近似式をもとに簡略化する。

IMG_20150806_0006

IMG_20150806_0007

ここまで計算したのは、誕生日が一致しない確率だから、一致する確率は
「1引く一致しない確率」であることを利用して計算する。

IMG_20150806_0007 - バージョン 2

それが、50%、2分の1を越える場合を考えと、
左の式を計算すればよい。

IMG_20150806_0007 - バージョン 3

 

ここで両辺の対数をとる。 (対数の底をeとする自然対数)

 

IMG_20150806_0008 - バージョン 2

自然対数の場合は、

log e = 1

である。
また

1/2 = 2のマイナス1乗

であることを利用して計算している。

以上のことより、23人いれば誕生日が一致する確率は5割を越えることが分かる。IMG_20150806_0008 - バージョン 2

この関係式を一般化したものが左の式である。一般にn通りある場合、およそ5割になるには左の式の値を利用すればよい。

たとえば誕生月が同じ確率は、上の式にn=12を代入して計算すればよい。結果は
約4.1で、5人いれば同じ誕生月の人がいる確率は5割ということで、これはなんなくそうかなあという実感に合う。

さて、ここまでの考え方を利用してさらに一歩すすめてみる。

ペアの数を考えてみる

A、B、C、D、E、Fの6人がいるとする。
Aをもとにペアを作ってみると、下の図のようになる。

IMG_20150806_0009

最初にABという組み合わせを考えてFまでの組み合わせを考えると、5✕6の
30通りできる。
ただAB、BAと同じ組み合わせがあるのでその分を考えると、2で割ればいいとこがわかる。
6人いれば、ペアの組み合わせが15通りあるということである。

35人いれば
35✕34➗2=595
通りあることがわかる。

595のペアがいれば、同じ誕生日の組み合わせはかなりあるのでは?と予想される。
35人では自分と同じ誕生日の人がいる確率は少なかったけれど、「誰かと誰かの誕生日が同じになる確率は高くなる」。これが「誕生日のペアが成立する確率は高い」ことの本質である。

誕生日、血液型、DNAiなど自分であることを証明するための方法はいくつもある。しかしそのデーター数が数100万単位だとすると、他人と同一視される確率は高くなっていくのではないか?そんな不安がでてくる。

他人と間違えられる危険率が100万分の1のときは?

他人との分類を精密にしていけば行くほど、エラーが出てくる確率が増えるのは予想できる。 Pitapaや銀行のカードでも、もう一度やり直してください、というエラーが出て、どうしたんだ?!と思う時があるように。
今ここで1つのペアにつき、他人受容(他人と間違えられる)確率をpとしよう。
p=1/1000000(100万分の1)のとき、

他人と間違えられない確率は、
1−p=0.999999
となり、ほとんど1だが、1よりほんの少し小さい値になる。

データの数をnとすると、ペアの数は
n(n+1)2
となる。

データベース全体で他人受容が起きない確率は、

IMG_20150806_0010

となるので、
全体で
他人受容が起きる確率は全体の1から
この式の値を引けばいいことが分かる。

IMG_20150806_0010

先ほどやったように、eを使って近似式に変形し、他人受容確率が50%をこえるのは何人の時か、同じような方法で計算してみよう。

 

IMG_20150806_0011

 

 

IMG_20150806_0011 - バージョン 2
前と同じように
両辺の自然対数をとって
考えると、

IMG_20150806_0011 - バージョン 3

 

log e = 1

1/2=2のマイナス1乗

を利用して計算する。

ここでp=1/1000000(100万分の1)を代入すると、

IMG_20150806_0012

 

 

 

となる。またnを使った式で計算すると、 IMG_20150806_0012 - バージョン 2

 

 

どちらも同じ結果が出てくる。
つまり、他人と自分が同一だと判定される確率が100万分の1であっても、

1180組ペアがあれば、同一人物であると判定されるペアが現れる確率は50%をこえる、というわけなのである。

これは大変なことである。
指紋やDNAは100%の確率で個人を特定できる、思っていたがとんでもないことなのだ。
この本によると、DNA鑑定は、DNAに含まれる全ての塩基配列を調べるわけではない。また警察白書によると同一のDNA型の出現頻度が4.7兆分の1と記されているが、和田俊憲「遺伝情報・DNA鑑定と刑事法」(慶應法学第18号(2011))という論文では「この確率を基にして、地球全体、あるいは日本全体で同一ペアが存在しない確率は極めて小さく、ほとんど0とみなせる」とある。つまり、DNA鑑定で、同一人物だと判定されるペアはほぼ確実にいるということなのだ。

実際にアメリカのメリーランド州で2007年1月に、3万人のデータの中で、他人なのにDNAの一致が実際にあったという資料も紹介されていた。
さきほどの4.7兆分の1という確率もあくまで理論的なものであり、実際にはもっと大きなものになるのかもしれない。

指紋やDNAの鑑定だけで他人と間違えられたり、事件に巻き込まれてはたまったものではない。
ブログでお世話になっている風見鶏さんから「病院では誕生日だけでなく、血液型も聞かれて本人確定をしています」とコメントがあった。
なるほど、大きな病院になればなるほどそういった工夫がいるのだと実感した。

バースデイパラドックス

私は「誕生日の確率から、危機が生じる」と感じたので、バーズデイクライシスと書いてきたが、統計の世界では「バースデイパラドックス」として以前から有名なことだそうだ。
「直感を裏切る数学」の作者の神永さんはこうしめくくっている。
「情報セキュリティの教科書には、バースデイパラドックスが必ず載っています。それには2つの意味があるでしょう。
ひとつは当然のことですが、情報セキュリティに携わる者が、絶対に理解しておかなくてはならない事実だということ。
そしてもうひとつは、日常的に数学に触れている者でさえ、正確に確率を把握するのは非常に難しいということです。
直感で「ざっくりこのくらい」と見積もるのではなく、きちんと数えあげることの重要性を示唆する話ではないでしょうか」。

単純に「誕生日が同じ人はどれくらいの確率でいるのだろう」という疑問からスタートしたが、バースデイパラドックスは統計の世界では必修のものだったのだ。
直感と実際のはざまは、思っている以上に大きな溝がある、ということがあるのだ。

 

 

 

 

バースディクライシス1

誕生日が同じ人

沢山の人数がおさめられている名簿を整理していると気がつくことがある。
「あれ、この人とこの人、同じ誕生日だなあ。」
それが思った以上にあったりして、珍しいことのもあるもんだなあ、と思っていた。
しかし調べ見ると、結構な確率であるんことがわかった。
参考になったのが次の二冊の本。

「直感を裏切る数学」(ブルーバックス 神永正博著)
「社会にも法則はあるか」(仮設社 長岡清 板倉聖宣)

 

 

一つ目は以前に紹介した「直感を裏切る数学」(ブルーバックス)。ここには「恐怖の誕生日」という章で紹介されている。

もう一つ目は仮説社の「社会にも法則はあるか」という本で、サブタイトルが「誕生日をめぐる法則」とある。
この二冊を読んで、私が理解したことをここに紹介してみよう。

では仮説実験授業風に選択肢のある問題をどうぞ。

クラスの人数が35〜45人の場合で考えます。同じクラスの中に同じ誕生日の人がいる確率はどれくらいだとおもいますか。 ここでは一つのクラスを考えましたが、クラスでなくてもかまいません。会議で35人〜45人位の人が集まっている場面を想像してもかまいません。

<予想>

ア、ほとんどない。あっても10クラスあればその中の1クラスか2クラスぐらい。つまり1〜2割位だと思う。

イ、半分ぐらいのクラスには「同じ誕生日の人がいる」と思う。つまり5割、確率1/2ぐらい。

ウ、たいていのクラスには「誕生日が同じ人」がいると思う。確率は8〜9割ぐらい。

さて、ア、イ、ウのどれを選択しようか。アかイかな?と思うが、、、。

確率という言葉が出てくると、何かややこしそうな気がして、考えるのが嫌になってきそう。どんなふうに考えればいいのだろう。どちらの本も丁寧に解説されているが、考え方の結論だけを書いてみると、

全ての場合の数から、全員の誕生日が違う場合の数を引けばよい。それが「誕生日が同じ」場合の数である。 
準備運動、まず3人の誕生月で考えてみよう。

Aさん、Bさん、Cさんという三人がいる場合を考える。
Aさんがとれる誕生月は1月から12月の12通り。
①Aさんが1月生まれだったらBさんは2月から12月の11通り。
②Aさんが2月生まれだったらBさんは1月、3月〜12月の11通り、
③Aさんが3月生まれだったらBさんは、1月、2月、4月〜12月の11通り。
・・・・・
⑫Aさんが12月生まれだったらBさんは、1月〜11月の11通り。
つまり、Aさんが12通りの誕生月それぞれにBさんは11通りの誕生月になる。

ここにCさんを考えると、
①Aさんが1月生まれで、Bさんが2月生まれだとCさんは3月〜12月の10通り。
②Aさんが1月生まれで、Bさんが3月生まれだとCさんは2月、4月〜12月の10通り。
③Aさんが1月生まれで、Bさんが4月生まれだとCさんは2月3月、5月〜12月の10通り
・・・・
⑫Aさんが1月生まれで、Bさんが12月生まれだとCさんは2月〜11月の10通り。
つまりAさんが1月と固定した時、Bさんは2月から11月の11通りが選択でき、CさんはBさんが11通りとるその月ごとに10通り選択できることになる。
全部の場合を考えると、Aさんが1月から12月までの12通りを選択するわけだから、AさんBさんCさんが取る場合の数は、

12✕11✕10

となる。

図で表すと、

IMG_20150729_0003

さて、今考えたのは、AさんBさんCさんの誕生月が違っている場合の数。
次にAさん、Bさん、Cさん3人の誕生日が同じであろうと違っていようと関係なく、全ての場合の数を考えると、

Aさんは12通り、
BさんはAさんに関係なく
12通り、
CさんもAさんやBさんに関係なく12通りとなる。
従って全ての誕生月の場合の数は、
12✕12✕12
となる。

さて問題は「同じ誕生月の場合の数」。これは先に結論を書いたが、

「全ての場合の数−3人の誕生月が違う場合の数」
すなわち、

12✕12✕12−12✕11✕10=1728−1320=408

そして確率の計算は全体の数で割ればいいから、

408÷1728✕100=23.61(%)

3人の場合、同じ誕生月である確率は約24%(四捨五入して)となる。

では35人の誕生日で考えてみよう

35人の全ての誕生日が同じ場合でない、数を数えてみよう。

上の場合から考えて、今度は誕生日だからスタートは365通りからはじまることが分かる。そして1つずつ場合の数が減っていき、全体で35通り減っていくので、

365✕364✕363✕・・・・✕(365−33)✕(365−34)

となる。

一方、35人の誕生日の場合の数は365を35回掛け算した数になる。すなわち、

IMG_20150730_0001

 

同じ誕生日の人がいる場合の数は、全体の数から誕生日が同じでない数を引けばいいので、

IMG_20150729_0006そして、35人の中で、同じ誕生日の人がいる確率は、 全体の数で割ればよい。

IMG_20150729_0006 - バージョン 5

 

365✕364✕363✕・・・✕2✕1という形、つまり階乗(!が階乗を表すと高校の数学で習ったと思う)の形式で整理すると、

IMG_20150729_0006 - バージョン 4これで形がスッキリとした。 先に求めた確率の式にこの式を代入すると、

IMG_20150729_0006 - バージョン 3

 

となる。 もう少し形を綺麗にすると、

IMG_20150729_0007

ここまで計算式を求めると、後は計算するだけだが、階乗の計算値が半端な数ではない。

実際どういう結果なるのかは、次回に説明したい。
今日はここまで、ご苦労さまでした。