![]() |
ChatGPT: "Taikuri heittelee punaisia ja sinisiä palloja umpimähkäisesti uurnaan" |
Uurnaan on pantu umpimähkäisesti sinisiä ja punaisia palloja, yhteensä 100 kappaletta. Uurnasta nostetaan umpimähkään yksi pallo, ja se osoittautuu punaiseksi. Sitten nostetaan umpimähkään toinen pallo. Kumpi on todennäköisempää: että se on punainen vai että se on sininen? Vai ovatko mahdollisuudet yhtä suuret?
Intuitio ehkä sanoisi, että mahdollisuudet ovat yhtä suuret. Tai että sininen on todennäköisempi, koska yksi punainen jo otettiin pois uurnasta.
Tilannetta kuitenkin kannattaa tutkia tarkemmin. Menettelynä voi olla simulointi, toisin sanoen kirjoitetaan koodi, joka ensin luo umpimähkäisen pallokokoelman ja sitten nostaa sieltä peräkkäin kaksi palloa. Koodia sitten ajetaan vaikkapa tuhat tai miljoona kertaa ja kirjataan tulokset.
Koodaamaan ryhtyminen kuitenkin nostaa esiin tilanteessa olevan ongelman: Mitä oikeastaan tarkoittaa, että uurnaan pannaan sinisiä ja punaisia palloja umpimähkäisesti? Voisi ajatella, että ensin arvotaan tasaisesta jakaumasta kokonaisluku väliltä [0,100] ja uurnaan pannaan tämän luvun mukainen määrä punaisia palloja. Loput sadasta pallosta ovat sitten sinisiä. Toisena vaihtoehtona voisi olla, että palloja heitellään uurnaan yksitellen ja heitettäessä pallo maalataan yhtä suurella todennäköisyydellä joko punaiseksi tai siniseksi. Kumpikin tapa tuottaa pallokokoelman, jota varmaankin voi sanoa umpimähkäiseksi. Ehkä muitakin yhtä luontevia tapoja voisi löytyä.
Vaikuttaako umpimähkäisyyden luomisen tapa sitten nostettavan pallon värin todennäköisyyteen? Lukija voi tutkia asiaa koodaamalla oman simulaationsa. Todennäköisyyden laskeminen teoreettisesti on tietenkin myös mahdollista.
Jos umpimähkäisyys luodaan arpomalla punaisten pallojen lukumäärä, on todennäköisempää, että punaisen pallon jälkeen nostettu toinen pallo on myös punainen. Simulointi antaa todennäköisyydeksi noin 2/3, mikä vastaa teoreettisesti laskettua. Jos sen sijaan pallojen väri arvotaan yksi kerrallaan, molemmat värit ovat yhtä todennäköisiä.
Tulos ehkä tuntuu hieman yllättävältä. On kuitenkin selvää, että tilanteet ovat erilaiset: Edellisessä vaihtoehdossa on yhtä todennäköista saada pallokokoelma, jossa kumpaakin väriä on yhtä paljon, kuin saada kokoelma, jossa kaikki pallot ovat samanvärisiä. Jälkimmäisessä vaihtoehdossa yksivärinen pallokokoelma on erittäin epätodennäköinen, mutta hyvin tavallista on, että kumpaakin väriä on lähes sama määrä. Edellisessä vaihtoehdossa ensin nostettu punainen pallo on jonkinlainen — tosin heikko — indikaatio siitä, että punaisia palloja on enemmän.
Todennäköisyyslaskenta on ala, jossa arkipäivän intuitio vie herkästi harhaan. Sana umpimähkään on myös vaarallinen. Eräs kollegani sanoi kerran, että yksiulotteisessa tapauksessa umpimähkäinen tarkoittaa tasaisesti jakautunutta satunnaissuuretta, useampiulotteisessa tapauksessa se voi tarkoittaa mitä tahansa. Jos todennäköisyyslaskennan tehtävässä heitetään tikkoja umpimähkäisesti tauluun, olisikin ehkä parempi puhua osumien jakautumisesta joko tasaisesti tai muulla tavoin tikkataulun alueelle. Satunnaisen heittäjän umpimähkään viskomista tikoista osa varmasti menee taulun ulkopuolelle, kun taas hyvän heittäjän tikat kasautuvat taulun keskiosaan, vaikka näidenkin osumisessa on satunnaisuutta/umpimähkäisyyttä.
---
Virikkeenä tämän jutun kirjoittamiseen oli Erica Klarreichin artikkeli Daniel Littin todennäköisyysprobleemoista Quanta Magazine -lehdessä elokuussa 2024: Perplexing the Web, One Probability Puzzle at a Time. Simuloinnit tein laskentaohjelma Mathematicalla. Lisäksi kävin ongelmasta keskustelun tekoälyn (ChatGPT) kanssa: täysin relevanttia päättelyä, järkeviä näkökohtia umpimähkäisyydestä ja bayesiläisestä todennäköisyyslaskennasta.