Siirry sisältöön
Juttutyyppi  Blogi

Todennäköisyydestä ja tilastoista

Millaisia ovat arkipäivän todennäköisyydet? Onko elämä lottoa? Ehkä, mutta uhkapelaamista voi kyseenalaistaa.

Reaalimaailman ilmiö on deterministinen, jos tapahtuman alkutilan perusteella voidaan tarkasti ennustaa lopputila, vaikkapa ammuksen lentorata. Satunnaisilmiöiden tulosta ei voida ennustaa tarkasti, mutta mitä useammin ilmiö toistuu, sitä enemmän eri tulosvaihtoehtojen osuus vakiintuu.

Tämä tarkoittaa käytännössä, että kolikkoa riittävän usein heitettäessä kruunan esiintymistodennäköisyydeksi vakiintuu 50 prosenttia, samoin klaavan. Monet näyttävät silti sortuvan pelaajan harhaan (gambler’s fallacy): odotetaan että ruletissa on ”pakko” tulla usean mustan pelimerkin jälkeen punainen. Mitään pakkoa ei ole, todennäköisyydellä ei ole muistia. Kolikonheitossa voi tulla kymmenen kertaa kruuna peräkkäin. Tämän todennäköisyys on prosentin kymmenesosa. Yhdennellätoista kerralla kruunan (ja klaavan) todennäköisyys on edelleen 50 prosenttia. Tämä tekisi mieli kertoa kioskille uhkapelikuponkejaan palauttaville ja ”hyviä” rivejä pohtiville.

Kolikonheitossa todennäköisyydellä ei ole muistia klassisen todennäköisyyden mukaan. Bayesilaisen todennäköisyyden mukaan lisäinformaatio vaikuttaa tulevien tapahtumien todennäköisyyden määrittämisen. On siis mahdollista, että kruunan (tai klaavan) poikkeuksellinen yleisyys johtuu siitä, että kolikko on tasapainotettu poikkeavasti, ja silloin kruunan (tai klaavan) reaalinen todennäköisyys kasvaa heittokertojen edetessä.

Todennäköisyyden testausta

Monty Hallin ongelma edellyttää todennäköisyyksien arviointikykyä. Kilpailijalla on edessään kolme ovea, ja yhden oven takana on palkintona auto ja kahden muun takana kapinen vuohi. Kilpailija ei tiedä minkä oven takana kukin palkinto on, ja hän saa valita yhden oven, mutta ei avaa sitä. Jäljellä on kaksi ovea, ja niistä avataan toinen – ja siellä on vuohi. Nyt kilpailija saa valita vaihtaako hän ensin valitsemansa oven toiseen jäljellä olevaan oveen vai pysyttäytyykö hän alkuperäisessä valinnassaan.

Lukija voi pohtia nyt, mitä hän itse tekisi.

Todennäköisyysajattelu voi auttaa karkottamaan arkiajattelun harhoja.

Monet ajattelevat, että kahdella jäljellä olevalla ovella on molemmilla sama voittomahdollisuus: 50 prosenttia. Näinhän asia tuntuisi olevan: kruunun saaminen kolikonheitossa on 50 prosenttia. Tosiasia, empiirisesti varmennettu pitkillä sarjoilla, on, että vaihto kannattaa: ovea vaihtamalla voittotodennäköisyys on 2/3, ilman vaihtoa 1/3. Oven vaihtava pelaaja nimittäin häviää vaihtamalla vain, jos hän alun perin valitsi oikean oven, minkä todennäköisyys on 1/3 – eli mikä on epätodennäköistä. Esimerkki osoittaa, että on petollisen helppo toimia vaillinaisesti ymmärretyn informaation pohjalta, ilman että asioita pysähtyy miettimään. Korkeampaa matematiikkaa tässä ei tarvita.

Todennäköisyysajattelu voi auttaa karkottamaan arkiajattelun harhoja.

Konjunktioharha esiintyy esimerkiksi seuraavasti. Tutkimuksessa on kohdejoukkona keski-ikäiset miehet ja otanta on kattava. Matti Meikäläinen oli mukana tutkimuksessa ja hänet valittiin sattumanvaraisesti seuraavaan kysymykseen. Kumpi väitteistä on todennäköisempi: A (Matilla on ollut yksi tai useampi sydänkohtaus) vai B (Matilla on ollut yksi tai useampi sydänkohtaus ja hän on yli 55 vuotta vanha)? Vaihtoehto B näyttäisi olevan todennäköisempi. Näin ei ole. B muodostaa A:n osajoukon, eikä se voi olla suurempi kuin kokonaisjoukko A.

Alkuvuonna 2021 sairaalassa oli vähän rokotettuja koronapotilaita, alkuvuonna 2022 heitä oli paljon. Koronarokotteen vastainen disinformaatio sai vettä myllyynsä. Tosiasiassa kuitenkin vuoden 2022 alkaessa väestö oli kutakuinkin rokotettu, joten rokotettujakin koronapotilaissa välttämättä oli. Rokotteen vaikutus on todennäköinen (probabilistinen), ei poikkeukseton (deterministinen).

Tilastot argumenttien tukena?

Todennäköisyyksistä voi saada raflaavia otsikoita ja niillä voidaan perustella monenlaisia argumentteja. Voi esimerkiksi olla totta, että ravintoaine X on aiheuttanut syöpäriskin sadan prosentin lisäyksen. Mikäli ilman ravintoainetta X elävien riski on 3/1000, ravintoainetta nauttivien riski on 6/1000 eli 0,006. Kovin iso ei absoluuttinen riski ole.

Maaliskuussa 2022 julkisuudessa esiteltiin isoja prosenttilukuja. Opettajien mahdollista lakkoa perusteltiin havainnolla, että 2010-luvulla luokanopettajakoulutuksen suosio väheni lähes 30 prosenttia. Sanomatta jäi, että absoluuttisesti hakijoita on edelleen valtavasti. Esimerkiksi Helsingin yliopistoon haki keväällä 2019 noin 1100 hakijaa, kun aloituspaikkoja on 120. Laskeneillakaan opiskelijamäärillä opettajapula on varsin epätodennäköinen (Helsingin Sanomat 30.5.2019).

Todennäköisyyksistä voi saada raflaavia otsikoita ja niillä voidaan perustella monenlaisia argumentteja.

Toisaalta kolmenkymmenen prosentin kasvu voi olla ratkaiseva. Suomalaisten halu liittyä NATO-puolustusliittoon kasvoi 30 prosenttia vuonna 2022, ja jäsenyyden kannattajien osuus kansalaisista nousi yli 60 prosenttiin. Liittoutuminen pelkästään poliittisen paineen vuoksi on lähitulevaisuudessa erittäin todennäköinen.

Työpaikoilla tehdään hyvinvointi- ja työtyytyväisyyskyselyjä. Niistä tehdään myös johtopäätöksiä, joita esitellään enemmän tai vähemmän näyttävästi. Voidaan esimerkiksi todeta, että vähintään 70 prosenttia vastaajista on johtamiseen vähintään melko tyytyväisiä. Kyselyissä on kuitenkin monenlaisia vääriä tulkintoja mahdollistavia tekijöitä.

Ensinnäkin, kaikki henkilöt, joiden odotetaan vastaavan kyselyyn, eivät sitä tee. Vapaaehtoisuusharha (volunteer bias) tarkoittaa, että kyselyyn vapaaehtoisesti vastaavat voivat poiketa kohdehenkilöstöstä kokonaisuutena. Vapaaehtoiset vastaajat voivat olla esimerkiksi organisaatioon sitoutuneempia kuin vastaamattomat.

Hiertymisharha (attrition bias) tarkoittaa, että kyselystä jättäydytään pois, kun vastaamisen on jo aloitettu. Tämä voi koskea esimerkiksi henkilöitä, jotka huomaavat, etteivät motivoidu kyselystä. On nähty sellaisiakin työhyvinvointikyselyjä, joissa kymmenet peräkkäiset Likert-asteikolla olevat kysymykset vaikuttavat kartoittavan samaa asiaa vain monin eri sanoin, että mieleen hiipii ajatus, pyritäänkö vastaamattomuusharhaan (non-response bias) tarkoituksella.

Tilastot ja niistä johdetut argumentit voivat kääntyä aivan toisenlaisiksi, kun lähemmin tarkastellaan. Tilastomuuttujia kohtaan on syytä aina olla kriittinen, mutta tutkimus ei paremmaksi muutu, jos tilastollisen tarkastelun mahdollisuudet lähtökohtaisesti hylätään.

Pysyvä osoite: http://urn.fi/URN:NBN:fi-fe2022041228380